特開2022-181437 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ シャープ株式会社の特許一覧

特開2022-181437音声処理システム及び音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022181437

(43)【公開日】2022-12-08

(54)【発明の名称】音声処理システム及び音声処理方法

(51)【国際特許分類】

G10L 21/0264 20130101AFI20221201BHJP

G10L 17/00 20130101ALI20221201BHJP

【ＦＩ】

G10L21/0264 Z

G10L17/00 200Z

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2021088380

(22)【出願日】2021-05-26

(71)【出願人】

【識別番号】000005049

【氏名又は名称】シャープ株式会社

(74)【代理人】

【識別番号】100167302

【弁理士】

【氏名又は名称】種村一幸

(74)【代理人】

【識別番号】100135817

【弁理士】

【氏名又は名称】華山浩伸

(72)【発明者】

【氏名】杉森文亮

(72)【発明者】

【氏名】西尾達也

(57)【要約】

【課題】ユーザーに装着されるウェアラブル型のマイクスピーカー装置の利便性を向上させることが可能な音声処理システム及び音声処理方法を提供する。
【解決手段】音声処理システムは、マイクスピーカー装置に搭載されたマイクにより集音される音声データを取得する第１取得処理部と、前記マイクスピーカー装置に搭載された認証情報取得部により取得される、当該マイクスピーカー装置を装着した装着者の認証情報を取得する第２取得処理部と、前記第２取得処理部により取得される前記認証情報に基づいて、前記第１取得処理部により取得される前記音声データに関する所定の処理を実行する制御処理部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザーに装着されるウェアラブル型のマイクスピーカー装置を介して当該ユーザーの発話音声の音声データを送受信する音声処理システムであって、
前記マイクスピーカー装置に搭載されたマイクにより集音される前記音声データを取得する第１取得処理部と、
前記マイクスピーカー装置に搭載された認証情報取得部により取得される、当該マイクスピーカー装置を装着した装着者の認証情報を取得する第２取得処理部と、
前記第２取得処理部により取得される前記認証情報に基づいて、前記第１取得処理部により取得される前記音声データに関する所定の処理を実行する制御処理部と、
を備える音声処理システム。

【請求項2】

前記第２取得処理部により取得される前記認証情報に基づいて、前記装着者を識別する識別処理部をさらに備え、
前記制御処理部は、前記第１取得処理部により取得される前記音声データの発話音声が、前記識別処理部により識別される前記装着者の発話音声と一致する場合に、当該音声データを出力する、
請求項１に記載の音声処理システム。

【請求項3】

前記制御処理部は、前記第１取得処理部により取得される前記音声データの発話音声が、前記識別処理部により識別される前記装着者の発話音声と一致しない場合に、当該音声データを破棄する、
請求項２に記載の音声処理システム。

【請求項4】

前記認証情報取得部は、前記装着者の指紋を読み取る読取部であり、
前記第２取得処理部は、前記装着者の指紋情報を取得する、
請求項１から請求項３のいずれか１項に記載の音声処理システム。

【請求項5】

前記認証情報取得部は、前記装着者の顔の少なくとも一部を撮像する撮像部であり、
前記第２取得処理部は、前記装着者の顔の少なくとも一部の顔画像を取得する、
請求項１から請求項３のいずれか１項に記載の音声処理システム。

【請求項6】

前記撮像部は、前記装着者の耳及び口の少なくともいずれかを撮像する、
請求項５に記載の音声処理システム。

【請求項7】

前記マイクスピーカー装置は、本体が上面視で環状の構造を有するとともに装着者から見て前方側に開口部を有し、当該開口部側に前記マイクを有し、当該マイクよりも装着者の後方側にスピーカーを有し、
前記認証情報取得部は、前記マイクスピーカー装置において、前記マイクと前記スピーカーとの間、かつ前記本体に配置されている、
請求項４から請求項６のいずれか１項に記載の音声処理システム。

【請求項8】

前記認証情報取得部は、前記装着者の発話音声を集音する前記マイクであり、
前記第２取得処理部は、前記装着者の発話音声を取得する、
請求項１から請求項３のいずれか１項に記載の音声処理システム。

【請求項9】

前記第２取得処理部により取得される前記認証情報に基づいて、前記装着者を識別する識別処理部をさらに備え、
前記識別処理部は、ユーザーごとに当該ユーザーの識別情報と当該ユーザーの音声情報と当該ユーザーの認証情報とを関連付けて記憶する記憶部を参照して、前記第２取得処理部により取得される前記認証情報に関連付けられた前記識別情報により前記装着者を識別する、
請求項１から請求項８のいずれか１項に記載の音声処理システム。

【請求項10】

前記第２取得処理部が前記記憶部に記憶されていない装着者の前記認証情報を取得した場合に、当該認証情報と、前記第１取得処理部が受信した当該装着者の前記音声データの前記音声情報と、当該装着者の識別情報とを関連付けて前記記憶部に記憶する、
請求項９に記載の音声処理システム。

【請求項11】

前記第２取得処理部により取得される前記認証情報に基づいて、前記装着者を識別する識別処理部をさらに備え、
前記第１取得処理部により取得される前記音声データの発話音声が、前記識別処理部により識別される前記装着者の発話音声と一致するか否かを判定する判定処理部をさらに備える、
請求項１から請求項１０のいずれか１項に記載の音声処理システム。

【請求項12】

前記第２取得処理部により取得される前記認証情報に基づいて、前記装着者を識別する識別処理部をさらに備え、
前記マイクスピーカー装置は、スピーカーの音量及び前記マイクのゲインのそれぞれの設定値を記憶しており、
前記スピーカーの音量及び前記マイクのゲインのそれぞれの設定値を、前記識別処理部により識別される前記装着者に対応する設定値に設定する設定処理部をさらに備える、
請求項１から請求項１１のいずれか１項に記載の音声処理システム。

【請求項13】

前記マイクスピーカー装置は、前記マイクが集音する音声データを録音する機能を備え、
前記設定処理部は、前記第１取得処理部により取得される前記音声データの発話音声が、前記識別処理部により識別される前記装着者の発話音声と一致しない場合に、前記マイクのゲインを、前記発話音声が前記装着者の発話音声と一致する場合に設定されるゲインよりも高い設定値に設定する、
請求項１２に記載の音声処理システム。

【請求項14】

前記マイクスピーカー装置は、前記第１取得処理部と、前記第２取得処理部と、前記第２取得処理部により取得される前記認証情報に基づいて前記装着者を識別する識別処理部と、前記制御処理部とを備える、
請求項１から請求項１３のいずれか１項に記載の音声処理システム。

【請求項15】

前記マイクスピーカー装置は、ネックバンド型の形状を有する、
請求項１から請求項１４のいずれか１項に記載の音声処理システム。

【請求項16】

ユーザーに装着されるウェアラブル型のマイクスピーカー装置を介して当該ユーザーの発話音声の音声データを送受信する音声処理方法であって、
一又は複数のプロセッサーが、
前記マイクスピーカー装置に搭載されたマイクにより集音される前記音声データを取得する第１取得ステップと、
前記マイクスピーカー装置に搭載された認証情報取得部により取得される、当該マイクスピーカー装置を装着した装着者の認証情報を取得する第２取得ステップと、
前記第２取得ステップにおいて取得される前記認証情報に基づいて、前記第１取得ステップにおいて取得される前記音声データに関する所定の処理を実行する制御ステップと、
を実行する音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、マイクスピーカー装置の音声の送受信を行う音声処理システム及び音声処理方法に関する。

【背景技術】

【0002】

従来、ユーザーの発話音声の音声データを送受信することが可能な音声処理システムが知られている。

【0003】

例えば特許文献１には、入力された音声情報に対し、識別処理が容易となるような前段処理を行い、前記前段処理された音声情報に所定の加工を施し、第１の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第１の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化するシステムが開示されている。

【0004】

また特許文献２には、入力された音声信号を送信可能な信号へ変換して送信を行う送信部と、特定者の音声情報を記憶する外部記憶媒体と、入力された音声信号と前記外部記憶媒体に記憶された音声情報を用いて入力が特定者からであるか否かを検出する話者認識部と、前記話者認識部による検出結果に基づき前記送信部による送信出力を制御する主ＣＰＵとを備えるシステムが開示されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２０－４２２９２号公報

【特許文献2】特開２０００－１０１６９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

ところで、マイク及びスピーカーを備え、ユーザーの首周りに装着可能なウェアラブル型のマイクスピーカー装置が知られている。このマイクスピーカー装置は、装着者の発話音声を取得して他のマイクスピーカー装置に送信したり、他のマイクスピーカー装置から受信した音声を当該装着者に向けて出力したりすることができる。ここで、前記マイクスピーカー装置は、装着者の近くにいる他のユーザーの発話音声などの周囲の雑音を取得した場合に、当該雑音の音声を他のマイクスピーカー装置に送信してしまう場合がある。このため、他のユーザーが不快に感じたり、前記マイクスピーカー装置を利用した会話がスムーズに行われなかったりするなど、マイクスピーカー装置の利便性が低下する問題が生じる。

【0007】

本発明の目的は、ユーザーに装着されるウェアラブル型のマイクスピーカー装置の利便性を向上させることが可能な音声処理システム及び音声処理方法を提供することにある。

【課題を解決するための手段】

【0008】

本発明の一の態様に係る音声処理システムは、ユーザーに装着されるウェアラブル型のマイクスピーカー装置を介して当該ユーザーの発話音声の音声データを送受信する音声処理システムであって、前記マイクスピーカー装置に搭載されたマイクにより集音される前記音声データを取得する第１取得処理部と、前記マイクスピーカー装置に搭載された認証情報取得部により取得される、当該マイクスピーカー装置を装着した装着者の認証情報を取得する第２取得処理部と、前記第２取得処理部により取得される前記認証情報に基づいて、前記第１取得処理部により取得される前記音声データに関する所定の処理を実行する制御処理部と、を備えるシステムである。

【0009】

本発明の他の態様に係る音声処理方法は、ユーザーに装着されるウェアラブル型のマイクスピーカー装置を介して当該ユーザーの発話音声の音声データを送受信する音声処理方法であって、一又は複数のプロセッサーが、前記マイクスピーカー装置に搭載されたマイクにより集音される前記音声データを取得する第１取得ステップと、前記マイクスピーカー装置に搭載された認証情報取得部により取得される、当該マイクスピーカー装置を装着した装着者の認証情報を取得する第２取得ステップと、前記第２取得ステップにおいて取得される前記認証情報に基づいて、前記第１取得ステップにおいて取得される前記音声データに関する所定の処理を実行する制御ステップと、を実行する方法である。

【発明の効果】

【0010】

本発明によれば、ユーザーに装着されるウェアラブル型のマイクスピーカー装置の利便性を向上させることが可能である。

【図面の簡単な説明】

【0011】

【図1】図１は、本発明の実施形態に係る会議システムの構成を示す図である。

【図2】図２は、本発明の実施形態に係る会議システムの適用例を示す図である。

【図3】図３は、本発明の実施形態に係るマイクスピーカー装置の構成を示す外観図である。

【図4】図４は、本発明の実施形態に係る会議システムで利用される会議情報の一例を示す図である。

【図5】図５は、本発明の実施形態に係る会議システムで利用されるユーザー情報の一例を示す図である。

【図6】図６は、本発明の実施形態に係る会議システムで利用される設定情報の一例を示す図である。

【図7】図７は、本発明の実施形態に係る会議システムにおける音声データの出力例を示す図である。

【図8】図８は、本発明の実施形態に係る会議システムにおいて実行される会議支援処理の手順の一例を説明するためのフローチャートである。

【図9】図９は、本発明の実施形態に係るマイクスピーカー装置の他の構成を示す外観図である。

【発明を実施するための形態】

【0012】

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

【0013】

本発明に係る音声処理システムは、例えば２つの拠点（例えば会議室Ｒ１，Ｒ２）において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議（オンライン会議など）を行うケースに適用することができる。前記マイクスピーカー装置は、例えばネックバンド型の形状を有し、各ユーザーは、前記マイクスピーカー装置を自身の首に装着して前記会議に参加する。各ユーザーは、前記マイクスピーカー装置のスピーカーから出力される音声を聞き取ることができ、また自身が発話した音声を前記マイクスピーカー装置のマイクに集音させて他の前記マイクスピーカー装置に送信させることができる。なお、本発明に係る音声処理システムは、１つの拠点において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議を行うケースにも適用することができる。また本発明に係る音声処理システムは、一人のユーザーがマイクスピーカー装置を使用して自身の音声を認識させたり、自身の発話内容を他の言語に翻訳させたりするケースにも適用することができる。以下では、本発明に係る音声処理システムの一例として、会議システムの実施形態について説明する。

【0014】

［会議システム１００］
図１は、本発明の実施形態に係る会議システムの構成を示す図である。会議システム１００は、音声処理装置１と複数のマイクスピーカー装置２と会議サーバー３とを含んでいる。マイクスピーカー装置２は、マイク２４及びスピーカー２５を搭載する音響機器である。なお、マイクスピーカー装置２は、例えばＡＩスピーカー、スマートスピーカなどの機能を備えてもよい。会議システム１００は、複数のユーザーのそれぞれが自身に装着するウェアラブル型のマイクスピーカー装置２を複数含み、複数のマイクスピーカー装置２の間でユーザーの発話音声の音声データを送受信するシステムである。会議システム１００は、本発明の音声処理システムの一例である。

【0015】

会議サーバー３は、前記オンライン会議を実現する会議アプリケーションを実行する。また、会議サーバー３は、会議情報Ｄ１を管理する。音声処理装置１は、各マイクスピーカー装置２を制御して、会議が開始されると各マイクスピーカー装置２との間で音声を送受信する処理を実行する。なお、マイクスピーカー装置２単体が本発明の音声処理システムを構成してもよいし、音声処理装置１単体が本発明の音声処理システムを構成してもよい。

【0016】

本実施形態では、図２に示すオンライン会議を例に挙げて説明する。オンライン会議の参加者であるユーザーＡ～ＤのうちユーザーＡ，Ｂは会議室Ｒ１に位置しており、ユーザーＣ，Ｄは会議室Ｒ２に位置している。ユーザーＡ～Ｄは、それぞれマイクスピーカー装置２Ａ～２Ｄを首に装着して会議に参加する。また、会議室Ｒ１には音声処理装置１ａ及びディスプレイＤＰ１が設置されており、会議室Ｒ２には音声処理装置１ｂ及びディスプレイＤＰ２が設置されている。ディスプレイＤＰ１，ＤＰ２は、それぞれの画面が共有されており、例えば会議資料を表示する。音声処理装置１ａ及びディスプレイＤＰ１と、音声処理装置１ｂ及びディスプレイＤＰ２とは、通信網Ｎ１（例えばインターネット）に接続された会議サーバー３を介してデータ通信可能に構成されている。音声処理装置１ａ，１ｂは、同一の機能を有する情報処理装置（例えばパーソナルコンピューター）である。以下では、音声処理装置１ａ，１ｂにおいて共通の説明する場合は、「音声処理装置１」と称す。

【0017】

また、本実施形態では、会議室Ｒ１に、会議に参加しないユーザーＥ，Ｆが含まれているものとする。ユーザーＥ，Ｆは、マイクスピーカー装置２を所持していない。

【0018】

会議サーバー３は、通信網Ｎ１に接続されており、会議室Ｒ１，Ｒ２の音声データをマイクスピーカー装置２及び音声処理装置１ａ，１ｂを介して送受信する。例えば音声処理装置１ａは、ユーザーＡの発話音声の音声データをマイクスピーカー装置２Ａから取得すると、当該音声データを会議サーバー３に送信する。会議サーバー３は、音声処理装置１ａから取得した前記音声データを音声処理装置１ａ，１ｂに送信する。音声処理装置１ａは、会議サーバー３から取得した前記音声データをユーザーＢのマイクスピーカー装置２Ｂに送信してユーザーＡの発話音声を出力（放音）させる。同様に、音声処理装置１ｂは、会議サーバー３から取得した前記音声データをユーザーＣ，Ｄのマイクスピーカー装置２Ｃ，２Ｄのそれぞれに送信してユーザーＡの発話音声を出力（放音）させる。また、会議サーバー３は、ユーザーの操作を受け付けて会議資料などをディスプレイＤＰ１，ＤＰ２に表示させる。このようにして、会議サーバー３は、オンライン会議を実現する。

【0019】

また、会議サーバー３には、オンライン会議に関する会議情報Ｄ１などのデータが記憶される。図４には、会議情報Ｄ１の一例を示している。図４に示すように、会議情報Ｄ１には、会議ごとに、会議の識別情報（会議ＩＤ）、会議の開催場所、会議の開始日時及び終了日時、会議の参加者、会議に使用する資料の各情報が含まれる。会議ＩＤ「Ｍ００１」には、図２に示すオンライン会議に対応する情報が登録されている。例えば前記オンライン会議の主催者は、自身の端末（パーソナルコンピューター）を使用して会議情報Ｄ１を事前に登録する。会議サーバー３は、クラウドサーバーで構成されてもよい。

【0020】

［マイクスピーカー装置２］
図３には、マイクスピーカー装置２の外観の一例を示している。図１及び図３に示すように、マイクスピーカー装置２は、制御部２１、記憶部２２、指紋センサー２３、マイク２４、スピーカー２５、通信部２６、電源２７、接続ボタン２８などを備える。マイクスピーカー装置２は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。マイクスピーカー装置２は、ユーザーの音声をマイク２４を介して取得したり、当該ユーザーに対してスピーカー２５から音声を出力したりする。マイクスピーカー装置２は、各種情報を表示する表示部を備えてもよい。

【0021】

図３に示すように、マイクスピーカー装置２の本体２９は、上面視で環状の構造を有するとともに装着者から見て前方側に開口部２９１を有している。換言すれば、マイクスピーカー装置２は、マイクスピーカー装置２を装着したユーザーから見て左右のアームを備え、Ｕ字状に形成されている。

【0022】

マイク２４は、ユーザーの発話音声を集音し易いように、マイクスピーカー装置２の先端側に配置されている。マイク２４は、マイクスピーカー装置２に内蔵されたマイク用基板（不図示）に接続されている。マイク２４は、左右のアームの一方側に設けられてもよいし、左右のアームの両方に設けられてもよい。

【0023】

スピーカー２５には、マイクスピーカー装置２を装着したユーザーから見て左側のアームに配置されるスピーカー２５Ｌと右側のアームに配置されるスピーカー２５Ｒとが含まれる。スピーカー２５Ｌ，２５Ｒは、ユーザーが出力音を聞き取り易いように、マイクスピーカー装置２のアームの中央付近に配置されている。スピーカー２５Ｌ，２５Ｒは、マイクスピーカー装置２に内蔵されたスピーカー用基板（不図示）に接続されている。

【0024】

前記マイク用基板は、音声データを音声処理装置１に送信するためのトランスミッター基板であり、前記通信部に含まれる。また、前記スピーカー用基板は、音声処理装置１から音声データを受信するためのレシーバー基板であり、前記通信部に含まれる。

【0025】

指紋センサー２３は、マイクスピーカー装置２の装着者の指紋を読み取るセンサーである。指紋センサー２３は、例えば図３に示すように、マイクスピーカー装置２において、マイク２４とスピーカー２５（例えばスピーカー２５Ｌ）との間に配置されていることが好ましく、さらに、本体２９の内側に配置されていることが好ましい。また、指紋センサー２３は、マイク２４よりも先端側に配置されてもよいし、本体２９の上側又は外側に配置されてもよい。このように、指紋センサー２３は、装着者がマイクスピーカー装置２のアームを握り易い位置に配置されている。このため、ユーザーは、指紋を読み取らせる際に指紋センサー２３の位置を直感的に把握することができるため認証処理を迅速に行うことができる。また指紋センサー２３を本体２９の内側に配置することにより、ユーザーは親指を指紋センサー２３にタッチし易くなるため親指の指紋を容易に読み取らせることができる。また、指紋センサー２３は、ユーザーが配置位置を指で確認し易い形状（例えば、凹凸形状、指の形状など）に形成されていることが好ましい。これにより、ユーザーは指紋センサー２３の位置を指の感覚により容易に把握することができる。指紋センサー２３は、本発明の認証情報取得部の一例である。また、指紋情報は、本発明の認証情報の一例である。なお、本発明の認証情報取得部は、カメラで構成され、カメラが指紋を撮像してもよい。指紋センサー２３は、読み取った指紋情報を制御部２１に送信する。制御部２１は、前記指紋情報に基づいて認証処理を実行して認証結果を通知する。

【0026】

通信部２６は、マイクスピーカー装置２を無線で音声処理装置１との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、通信部２６は、例えばＢｌｕｅｔｏｏｔｈ方式（Ｂｌｕｅｔｏｏｔｈ；登録商標）によりマイクスピーカー装置２と接続して通信を行う。例えば、ユーザーが電源２７をオン状態にした後に接続ボタン２８を押下すると、通信部２６は、ペアリング処理を実行してマイクスピーカー装置２を音声処理装置１に接続する。なお、マイクスピーカー装置２と音声処理装置１との間に送信機が配置され、当該送信機がマイクスピーカー装置２とペアリング（Ｂｌｕｅｔｏｏｔｈ接続）し、当該送信機と音声処理装置１とがインターネットを介して接続されてもよい。

【0027】

記憶部２２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。具体的には、記憶部２２には、マイクスピーカー装置２を使用するユーザーのユーザー情報Ｄ２などのデータが記憶される。

【0028】

図５には、ユーザー情報Ｄ２の一例を示している。図５に示すように、ユーザー情報Ｄ２には、ユーザーごとに、「ユーザーＩＤ」、「音声情報」、「指紋情報」などの情報が含まれる。前記ユーザーＩＤは、ユーザーの識別情報である。前記音声情報は、ユーザーを識別可能な声の特徴を示す情報（例えば声紋情報）である。前記指紋情報は、ユーザーを識別可能な指紋の情報である。前記音声情報及び前記指紋情報は、本発明の認証情報の一例である。

【0029】

例えば、各ユーザーは、マイクスピーカー装置２を使用する前に、マイクスピーカー装置２において、自身の声と指紋とを登録する操作を行う。具体的には、ユーザーは、マイクスピーカー装置２のユーザー登録ボタン（不図示）を押した後、所定のワード又は任意のワードを一定時間発話する。これにより、制御部２１は、ユーザーの発話音声から声の特徴の音声情報を取得する。続いて、制御部２１が指紋の登録を促すアナウンスを流すと、ユーザーは、指紋センサー２３に指をタッチする。これにより、制御部２１は、ユーザーの指紋情報を取得する。制御部２１は、取得した音声情報及び指紋情報と、任意に設定したユーザーＩＤとを互いに関連付けてユーザー情報Ｄ２に登録する。

【0030】

各ユーザーが前記登録操作を行うことにより、マイクスピーカー装置２の記憶部２２には、予め複数のユーザーのユーザー情報Ｄ２が登録される。また、マイクスピーカー装置２ごとにユーザーが前記登録操作を行ってユーザー情報Ｄ２をそれぞれの記憶部２２に登録してもよいし、ユーザー情報Ｄ２のデータが、複数のマイクスピーカー装置２のそれぞれに転送されてそれぞれの記憶部２２に記憶されてもよい。

【0031】

また、記憶部２２には、制御部２１に後述の会議支援処理（図８参照）を実行させるための会議支援プログラムなどの制御プログラムが記憶されている。例えば、前記会議支援プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、マイクスピーカー装置２が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部２２に記憶されてもよい。

【0032】

制御部２１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の演算処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記ＲＡＭは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部２１は、前記ＲＯＭ又は記憶部２２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することによりマイクスピーカー装置２を制御する。

【0033】

ところで、マイクスピーカー装置２は、装着者の近くにいる他のユーザーの発話音声などの周囲の雑音を取得した場合に、当該雑音の音声を他のマイクスピーカー装置２に送信してしまう場合がある。このため、他のユーザーが不快に感じたり、マイクスピーカー装置２を利用した会話がスムーズに行われなかったりするなど、マイクスピーカー装置２の利便性が低下する問題が生じる。これに対して、本実施形態に係るマイクスピーカー装置２によれば、以下に示すように、マイクスピーカー装置２の利便性を向上させることが可能である。

【0034】

具体的には、制御部２１は、図１に示すように、設定処理部２１１、第１取得処理部２１２、第２取得処理部２１３、識別処理部２１４、判定処理部２１５、出力処理部２１６などの各種の処理部を含む。なお、制御部２１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、一部又は全部の前記処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記処理部として機能させるためのプログラムであってもよい。

【0035】

設定処理部２１１は、マイクスピーカー装置２に関する設定を行う。具体的には、設定処理部２１１は、マイクスピーカー装置２が音声処理装置１に接続（ペアリング）されると、ユーザーの操作に応じて、音量及びマイクゲインを設定する。設定処理部２１１は、本発明の設定処理部の一例である。

【0036】

他の実施形態として、設定処理部２１１は、ユーザーの認証情報に基づいて、音量、マイクゲイン、イコライザーなどを自動的に設定してもよい。この場合、例えば記憶部２２に、設定情報Ｄ３が記憶されてもよい。図６には、設定情報Ｄ３の一例を示している。

【0037】

図６に示すように、設定情報Ｄ３には、ユーザーごとに、「ユーザーＩＤ」、「音量情報」、「ゲイン情報」、「イコライザー情報」などの情報が含まれる。前記ユーザーＩＤは、ユーザーの識別情報である。前記音量情報は、スピーカー２５から出力される音の音量（ボリューム）を示す設定値の情報である。前記ゲイン情報は、マイク２４のゲインを示す設定値の情報である。前記イコライザー情報は、音声信号の周波数特性に関する情報である。

【0038】

例えば、各ユーザーは、マイクスピーカー装置２において、前記音声情報及び前記指紋情報を登録した後、自身の好みの音量とマイクゲインと周波数特性とを登録する操作を行う。具体的には、ユーザーは、マイクスピーカー装置２のユーザー登録ボタン（不図示）を押して、マイクスピーカー装置２に設けられている操作スイッチを操作して好みの音量、マイクゲイン、及び周波数特性を調整する。制御部２１は、前記音量、前記マイクゲイン、及び周波数特性の設定値を取得すると、指紋情報に関連付けられた前記ユーザーＩＤを関連付けて設定情報Ｄ３に登録する。なお、制御部２１は、前記音声情報及び前記指紋情報に関連付けられたユーザーＩＤ（図５参照）を、設定情報Ｄ３（図６参照）のユーザーＩＤに対応付けて登録する。

【0039】

設定処理部２１１は、マイクスピーカー装置２が音声処理装置１に接続（ペアリング）され、ユーザーの指紋又は音声を取得すると、当該指紋又は音声に関連付けられたユーザーＩＤ（図５参照）に基づいて、設定情報Ｄ３を参照して当該ユーザーに対応する音量、マイクゲイン、及び周波数特性を設定する。

【0040】

第１取得処理部２１２は、マイクスピーカー装置２に搭載されたマイク２４により集音される音声データを取得する。例えば会議室Ｒ１において、ユーザーＡのマイクスピーカー装置２の第１取得処理部２１２は、マイク２４が集音したユーザーＡの発話音声の音声データを取得する。また、会議室Ｒ１においてユーザーＥ，Ｆが会話している場合に、ユーザーＡのマイクスピーカー装置２の第１取得処理部２１２は、マイク２４が集音したユーザーＥ，Ｆの発話音声の音声データを取得する。このように、第１取得処理部２１２は、マイク２４の集音範囲に含まれるユーザーの発話音声又は他の音源が発する音を取得する。第１取得処理部２１２は、本発明の第１取得処理部の一例である。

【0041】

第２取得処理部２１３は、マイクスピーカー装置２に搭載された指紋センサー２３により取得される、マイクスピーカー装置２を装着した装着者の認証情報（指紋情報）を取得する。例えば、ユーザーＡは、マイクスピーカー装置２を装着して音声処理装置１に接続（ペアリング）させた後に指紋センサー２３に指をタッチする。指紋センサー２３がユーザーＡの指紋を読み取ると、第２取得処理部２１３がユーザーＡの指紋情報Ｆａを取得する。第２取得処理部２１３は、本発明の第２取得処理部の一例である。

【0042】

識別処理部２１４は、第２取得処理部２１３により取得される指紋情報に基づいて、マイクスピーカー装置２の装着者を識別（認証）する。具体的には、識別処理部２１４は、ユーザーごとに当該ユーザーの識別情報（ユーザーＩＤ）と当該ユーザーの音声情報と当該ユーザーの指紋情報とを関連付けて記憶するユーザー情報Ｄ２（図５参照）を参照して、第２取得処理部２１３により取得される指紋情報に関連付けられたユーザーＩＤにより装着者を識別する。識別処理部２１４は、本発明の識別処理部の一例である。

【0043】

例えば、ユーザーＡがマイクスピーカー装置２Ａを装着して指紋センサー２３に指をタッチした場合、当該マイクスピーカー装置２Ａの識別処理部２１４は、指紋センサー２３からユーザーＡの指紋情報Ｆａを取得する。識別処理部２１４は、ユーザー情報Ｄ２（図５参照）を参照して、指紋情報Ｆａに関連付けられたユーザーＩＤ「０００１」を特定（識別）する。なお、ユーザーＩＤ「０００１」は、ユーザーＡに対応する。

【0044】

また例えば、ユーザーＢがマイクスピーカー装置２Ｂを装着して指紋センサー２３に指をタッチした場合、当該マイクスピーカー装置Ｂ２の識別処理部２１４は、指紋センサー２３からユーザーＢの指紋情報Ｆｂを取得する。識別処理部２１４は、ユーザー情報Ｄ２（図５参照）を参照して、指紋情報Ｆｂに関連付けられたユーザーＩＤ「０００２」を特定（識別）する。なお、ユーザーＩＤ「０００２」は、ユーザーＢに対応する。

【0045】

ここで、第２取得処理部２１３が取得した指紋情報がユーザー情報Ｄ２（図２参照）に登録されていない場合、識別処理部２１４は装着者を識別することができない。この場合、制御部２１は、第２取得処理部２１３が取得した指紋情報をユーザー情報Ｄ２に登録する処理を実行する。また制御部２１は、前記指紋情報の登録に加えて、ユーザーの音声情報の登録処理を実行する。これにより、マイクスピーカー装置２において事前にユーザー情報Ｄ２を登録していないユーザーがマイクスピーカー装置２を装着して使用する場合には、ユーザーはその時点で登録操作を行って前記音声情報及び前記指紋情報を登録することができる。

【0046】

判定処理部２１５は、第１取得処理部２１２により取得される音声データの発話音声が、識別処理部２１４により識別される装着者の発話音声と一致するか否かを判定する。例えば、識別処理部２１４が装着者の指紋情報からユーザーＩＤ「０００１」を特定した場合に、判定処理部２１５は、第１取得処理部２１２が取得した装着者の音声データの音声情報が、当該ユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致するか否かを判定する。判定処理部２１５は、本発明の判定処理部の一例である。

【0047】

なお、判定処理部２１５は、周知の音声認識技術により前記判定処理（声認証）を実行する。例えば、判定処理部２１５は、隠れマルコフモデル、パターンマッチング、ニューラルネットワーク、決定木などの技術を用いて前記声認証を実行する。

【0048】

また、判定処理部２１５は、前記音声認識の学習済みモデルを利用して前記声認証を実行してもよい。前記学習済みモデルは、例えばマイクスピーカー装置２で生成されて記憶部２２に記憶されてもよい。例えばマイクスピーカー装置２の制御部２１は、各ユーザーの音声情報を学習用データとして機械学習を行うことにより前記学習済みモデルを生成する。また、制御部２１は、マイクスピーカー装置２を装着したユーザーが正面を向いて発話した音声情報、左側を向いて発話した音声情報、右側を向いて発話した音声情報を学習用データとして機械学習を行うことにより前記学習済みモデルを生成してもよい。

【0049】

他の実施形態として、前記学習済みモデルは、例えば音声処理装置１又はクラウドサーバーで生成されてマイクスピーカー装置２に記憶されてもよい。例えばクラウドサーバーは、各ユーザーの音声情報をマイクスピーカー装置２を介して取得し、当該音声情報を学習用データとして機械学習を行うことにより前記学習済みモデルを生成する。クラウドサーバーは、生成した学習済みモデルをマイクスピーカー装置２に送信する。

【0050】

出力処理部２１６は、判定処理部２１５の判定結果に基づいて、第１取得処理部２１２により取得される音声データの出力可否を決定する。具体的には、出力処理部２１６は、第１取得処理部２１２により取得される音声データの発話音声が、識別処理部２１４により識別される装着者の発話音声と一致する場合に当該音声データを出力する。一方、出力処理部２１６は、第１取得処理部２１２により取得される音声データの発話音声が、識別処理部２１４により識別される装着者の発話音声と一致しない場合に当該音声データを出力しない。また、この場合、出力処理部２１６は、前記音声データを破棄してもよい。出力処理部２１６は、本発明の制御処理部の一例である。

【0051】

上記の例では、識別処理部２１４が装着者の指紋情報ＦａからユーザーＩＤ「０００１」を特定した場合に、第１取得処理部２１２が取得した装着者の音声データの音声情報が、当該ユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致する場合に、出力処理部２１６は、当該音声データを音声処理装置１ａに出力する。また例えば、識別処理部２１４が装着者の指紋情報ＦａからユーザーＩＤ「０００１」を特定した場合に、第１取得処理部２１２が取得した装着者の音声データの音声情報が、当該ユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致しない場合に、出力処理部２１６は、当該音声データを音声処理装置１ａに出力しない。

【0052】

このように、制御部２１は、マイク２４を介して取得した発話音声の音声情報（音声の特徴）が、指紋情報により識別された装着者に対応する音声情報に一致する場合にのみ当該発話音声の音声データを音声処理装置１ａに出力する。すなわち、制御部２１は、音声のフィルタ処理を実行する。このため、例えば図７に示すように、ユーザーＡがマイクスピーカー装置２Ａを装着している場合において、マイクスピーカー装置２Ａが、ユーザーＡの発話音声Ｖ１と、ユーザーＢの発話音声Ｖ２と、ユーザーＥの発話音声Ｖ３と、ユーザーＦの発話音声Ｖ４とを取得した場合に、マイクスピーカー装置２Ａは、装着者であるユーザーＡの発話音声Ｖ１の音声データのみを音声処理装置１ａに出力し、他のユーザーＢ，Ｅ，Ｆの発話音声Ｖ２，Ｖ３，Ｖ４の音声データをカットする。この場合、音声処理装置１ａは発話音声Ｖ１の音声データを取得すると当該音声データを会議サーバー３に送信し、会議サーバー３は当該音声データを取得すると当該音声データを会議室Ｒ２の音声処理装置１ｂに送信する。音声処理装置１ｂは、会議サーバー３から前記音声データを取得するとマイクスピーカー装置２Ｃ，２Ｄに送信し、マイクスピーカー装置２Ｃ，２Ｄは、当該音声データを取得するとスピーカー２５から当該音声データに対応するユーザーＡの発話音声Ｖ１を出力する。これにより、会議室Ｒ２のユーザーＣ，Ｄは、会議室Ｒ１の他のユーザーＢ，Ｅ，Ｆの発話内容が耳に入ることなく、ユーザーＡの発話内容のみをクリアに聞き取ることができる。

【0053】

［音声処理装置１］
図１に示すように、音声処理装置１は、制御部１１、記憶部１２、操作表示部１３、通信部１４などを備える情報処理装置である。なお、音声処理装置１は、１台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。音声処理装置１は、パーソナルコンピューター、スマートフォンなどであってもよい。

【0054】

通信部１４は、音声処理装置１を有線又は無線で通信網Ｎ２に接続し、通信網Ｎ２を介してマイクスピーカー装置２、ディスプレイＤＰ１，ＤＰ２などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。例えば、通信部１４は、Ｂｌｕｅｔｏｏｔｈ方式によるペアリング処理を実行して、マイクスピーカー装置２と接続する。また、通信部１４は、オンライン会議を行う場合に、通信網Ｎ１（例えばインターネット）に接続して複数拠点（会議室Ｒ１，Ｒ２）間のデータ通信を行う。

【0055】

操作表示部１３は、各種の情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。

【0056】

記憶部１２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。また、記憶部１２には、制御部１１に後述の会議支援処理（図８参照）を実行させるための会議支援プログラムなどの制御プログラムが記憶されている。例えば、前記会議支援プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

【0057】

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の演算処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記ＲＡＭは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

【0058】

例えば、会議室Ｒ１に設置された音声処理装置１ａの制御部１１は、会議室Ｒ１のマイクスピーカー装置２との接続（ペアリング）を確立し、マイクスピーカー装置２との間で音声データの送受信を行う。同様に、会議室Ｒ２に設置された音声処理装置１ｂの制御部１１は、会議室Ｒ２のマイクスピーカー装置２との接続（ペアリング）を確立し、マイクスピーカー装置２との間で音声データの送受信を行う。また、音声処理装置１ａの制御部１１は、前記音声データを取得すると会議サーバー３に送信し、音声処理装置１ｂの制御部１１は、前記音声データを取得すると会議サーバー３に送信する。

【0059】

他の実施形態として、音声処理装置１の記憶部１２に、ユーザー情報Ｄ２（図５参照）及び設定情報Ｄ３（図６参照）が記憶されてもよい。また、音声処理装置１の制御部１１は、マイクスピーカー装置２に含まれる識別処理部２１４及び判定処理部２１５（図１参照）の機能を備えてもよい。この場合、制御部１１は、マイクスピーカー装置２から認証情報（指紋情報）を取得して装着者を識別し、マイクスピーカー装置２から取得した音声データの発話音声が、識別した前記装着者の発話音声であるか否かを判定してもよい。

【0060】

［会議支援処理］
以下、図８を参照しつつ、マイクスピーカー装置２の制御部２１によって実行される会議支援処理の手順の一例について説明する。なお、本発明は、前記会議支援処理に含まれる一又は複数のステップを実行する会議支援方法（本発明の音声処理方法）の発明として捉えることができる。また、ここで説明する前記会議支援処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記会議支援処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここではマイクスピーカー装置２の制御部２１が前記会議支援処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、一又は複数のプロセッサーが前記会議支援処理における各ステップを分散して実行してもよい。

【0061】

ここでは、会議室Ｒ１に含まれる特定の１台のマイクスピーカー装置２において実行される前記会議支援処理について説明する。

【0062】

先ず、ステップＳ１１において、マイクスピーカー装置２の制御部２１は、当該マイクスピーカー装置２を音声処理装置１ａに接続する。例えば、会議に参加するユーザーが自身に装着したマイクスピーカー装置２の接続ボタン２８を押下すると、制御部２１は、音声処理装置１ａとの間でＢｌｕｅｔｏｏｔｈ方式によるペアリング処理を実行して、マイクスピーカー装置２を音声処理装置１ａに接続する。

【0063】

次にステップＳ１２において、制御部２１は、マイクスピーカー装置２の装着者の認証情報を取得する。例えば、ユーザーＡがマイクスピーカー装置２Ａの指紋センサー２３に指をタッチすると、制御部２１は、ユーザーＡの指紋情報Ｆａを取得する。ステップＳ１２は、本発明の第２取得ステップの一例である。

【0064】

次にステップＳ１３において、制御部２１は、マイクスピーカー装置２の装着者を識別できたか否かを判定する。例えばステップＳ１２において制御部２１が取得したユーザーＡの指紋情報Ｆａがユーザー情報Ｄ２（図５参照）に登録されている場合に（Ｓ１３：Ｙｅｓ）、制御部２１は、マイクスピーカー装置２の装着者をユーザーＩＤ「０００１」（ユーザーＡ）と識別する。その後処理はステップＳ１４に移行する。

【0065】

これに対して、ステップＳ１２において制御部２１が取得した装着者の前記指紋情報がユーザー情報Ｄ２に登録されていない場合には（Ｓ１３：Ｎｏ）、処理はステップＳ１３１に移行して、制御部２１は、前記指紋情報をユーザー情報Ｄ２に新規登録する。またこの場合、制御部２１は、さらに装着者の音声を取得して音声情報を前記指紋情報に関連付け、さらにユーザーＩＤを設定してユーザー情報Ｄ２に登録する。その後処理はステップＳ１４に移行する。ステップＳ１３は、本発明の識別ステップの一例である。

【0066】

ステップＳ１４において、制御部２１は、マイクスピーカー装置２の装着者が発話する発話音声の音声データを取得したか否かを判定する。制御部２１が前記音声データを取得した場合（Ｓ１４：Ｙｅｓ）、処理はステップＳ１５に移行する。一方、制御部２１が前記音声データを取得しない場合（Ｓ１４：Ｎｏ）、処理はステップＳ１７に移行する。ステップＳ１４は、本発明の第１取得ステップの一例である。

【0067】

ステップＳ１５において、制御部２１は、ステップＳ１４において取得した前記音声データの発話音声が装着者の発話音声と一致するか否かを判定する。例えば、制御部２１は、取得した前記音声データの音声情報が、識別したユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致するか否かを判定する。制御部２１が取得した前記音声データの音声情報が音声情報Ｖａと一致する場合（Ｓ１５：Ｙｅｓ）、処理はステップＳ１６に移行する。一方、制御部２１が取得した前記音声データの音声情報が音声情報Ｖａと一致しない場合（Ｓ１５：Ｎｏ）、処理はステップＳ１５１に移行する。

【0068】

ステップＳ１５１では、制御部２１は、ステップＳ１４において取得した前記音声データを破棄する。例えば、制御部２１は、取得した前記音声データの音声情報が音声情報Ｖｃであり、ユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致しない場合に、当該音声データを音声処理装置１ａに出力しないで破棄する。

【0069】

ステップＳ１６では、制御部２１は、ステップＳ１４において取得した前記音声データを音声処理装置１ａに出力する。例えば、制御部２１は、取得した前記音声データの音声情報が音声情報Ｖａであり、ユーザーＩＤ「０００１」に関連付けられた音声情報Ｖａと一致する場合に、当該音声データを音声処理装置１ａに出力する。ステップＳ１６は、本発明の制御ステップの一例である。

【0070】

次にステップＳ１７において、制御部１１は、会議が終了したか否かを判定する。例えば、ユーザーが前記オンライン会議の終了操作を行うことにより前記オンライン会議が終了する。前記オンライン会議が終了すると（Ｓ１７：Ｙｅｓ）、制御部１１は、前記会議支援処理を終了する。一方、前記オンライン会議が終了しない場合（Ｓ１７：Ｎｏ）、処理はステップＳ１４に移行する。制御部２１は、前記オンライン会議が終了するまで上述の処理を繰り返す。

【0071】

以上のように、会議システム１００は、ユーザーに装着されるウェアラブル型のマイクスピーカー装置２を介して当該ユーザーの発話音声の音声データを送受信するシステムである。会議システム１００は、マイクスピーカー装置２に搭載されたマイク２４により集音される前記音声データを取得する。また会議システム１００は、マイクスピーカー装置２に搭載された認証情報取得部（例えば指紋センサー２３）により取得される、マイクスピーカー装置２を装着した装着者の認証情報（例えば指紋情報）を取得し、取得した前記認証情報に基づいて前記装着者を識別する。また会議システム１００は、取得した前記音声データの発話音声が、識別した装着者の発話音声である場合に当該音声データを出力し、取得した前記音声データの発話音声が、識別した前記装着者の発話音声でない場合に当該音声データを出力しない。

【0072】

上記構成によれば、マイクスピーカー装置２が取得した前記音声データの発話音声が、マイクスピーカー装置２の装着者の発話音声と一致する場合に、当該音声データが出力されるため、マイクスピーカー装置２の装着者の発話音声を相手側のマイクスピーカー装置２に送信することができる。また、マイクスピーカー装置２が取得した前記音声データの発話音声が、マイクスピーカー装置２の装着者の発話音声と一致しない場合に、当該音声データを破棄することにより、マイクスピーカー装置２の装着者以外の発話音声が相手側のマイクスピーカー装置２から出力されることを防ぐことができる。これにより、会議の相手側のユーザーが不快に感じたり、会話がスムーズに行われなかったりする問題を解消することができる。よって、マイクスピーカー装置２の利便性を向上させることが可能となる。

【0073】

本発明は上述の実施形態に限定されない。以下、本発明の他の実施形態について説明する。

【0074】

上述の実施形態では、本発明の認証情報の一例として指紋情報を挙げたが、本発明の認証情報は指紋情報に限定されない。他の実施形態として、本発明の認証情報は、装着者の顔の少なくとも一部の顔情報であってもよい。この場合、本発明の認証情報取得部は、装着者の顔を撮像するカメラ３０（撮像部）で構成されてもよい。例えば、カメラ３０は、装着者の耳及び口の少なくともいずれかを撮像する。図９に示すように、カメラ３０は、マイクスピーカー装置２において、マイク２４とスピーカー２５（例えばスピーカー２５Ｌ）との間、かつ本体２９の内側に配置される。またカメラ３０は、装着者の耳及び口の両方が画角に収まるように、カメラレンズが斜め上方に向くようにアームに配置される。この場合、第２取得処理部２１３は、装着者の顔の少なくとも一部の顔画像を取得する。なお、装着者がマスクを着用している場合に、制御部２１は、口を撮像する際にマスクを外すように音声案内してもよい。また、装着者の髪の毛で耳を認証できない場合に、制御部２１は、髪をかき上げるように音声案内してもよい。制御部２１は、周知の認証技術を利用して、カメラ３０が撮像した耳又は口の画像から装着者を識別する。例えば、制御部２１は、マイクスピーカー装置２の装着者の耳の画像から抽出した耳の形状と、予め登録されたユーザーごとの耳の形状とを照合して、装着者を識別する。例えば、制御部２１は、マイクスピーカー装置２の装着者の口の画像から抽出した唇の形状、唇の動きと、予め登録されたユーザーごとの唇の形状、唇の動きとを照合して、装着者を識別する。

【0075】

また、カメラ３０には、レンズを覆う開閉式（跳ね上げ式）のカバー３０ｃが設けられてもよい。ユーザーがカバー３０ｃを指で押すことにより、カバー３０ｃが開きカメラ３０のレンズが露出される（図９参照）。

【0076】

また他の実施形態として、本発明の認証情報は、装着者の脈（静脈）、網膜、声（声紋）などの生体情報であってもよい。これらの生体情報は、各種センサー、カメラなどにより取得することが可能である。

【0077】

例えば制御部２１は、マイクスピーカー装置２の装着者の音声を取得し、当該音声に基づいてマイクスピーカー装置２の装着者を識別してもよい。制御部２１は、ユーザーが正面を向いて発話した音声、左側を向いて発話した音声、右側を向いて発話した音声のそれぞれについて、装着者を識別する処理（認証処理）を実行してもよい。この場合、マイク２４は、本発明の認証情報取得部の一例である。これにより、制御部２１は、マイクスピーカー装置２を装着したユーザーが正面を向いて発話した音声情報と、左側を向いて発話した音声情報と、右側を向いて発話した音声情報とに基づいて生成した学習済みモデルを利用することにより、正確に装着者を識別することができる。

【0078】

また他の実施形態として、マイクスピーカー装置２は、マイク２４が集音する音声データを録音する機能を備え、設定処理部２１１は、第１取得処理部２１２により取得される音声データの発話音声が、識別処理部２１４により識別される装着者の発話音声と一致しない場合に、マイクゲインを、前記発話音声が前記装着者の発話音声と一致する場合に設定されるゲインよりも高い設定値に設定してもよい。一般的に、マイクスピーカー装置２の装着者が他のユーザーと対話する場合、マイク２４が集音する音声のうち装着者の発話音声（マイクゲイン）は大きくなり、対話相手の発話音声は小さくなる。この点、上記構成によれば、対話相手の発話音声のマイクゲインを高くすることにより、対話相手の発話音声も確実に録音することができる。

【0079】

本発明の音声処理システムは、会議システムに限定されない。他の実施形態として、本発明の音声処理システムは、音声認識システム、翻訳システムなどに適用されてもよい。具体的には、音声処理装置１は、マイクスピーカー装置２から前記音声データを取得すると、前記音声データの音声を第１言語から第２言語に翻訳する翻訳サービスを提供してもよい。

【0080】

なお、本発明の音声処理システムは、マイクスピーカー装置２単体が本発明の音声処理システムを構成してもよいし、音声処理装置１単体が本発明の音声処理システムを構成してもよいし、マイクスピーカー装置２及び音声処理装置１の組み合わせにより構成されてもよい。

【0081】

また、本発明の音声処理システムは、ユーザーの認証情報に基づいて、音声データに関する所定の処理を実行する。前記所定の処理には、上述したように、取得された音声データの発話音声が装着者の発話音声と一致する場合に当該音声データを出力する処理が含まれる。また、前記所定の処理には、マイク、ユーザーの認証情報に基づいて音量、マイクゲイン、イコライザーを設定（調整）する処理、マイク２４が集音する音声データを録音する処理、音声を翻訳する処理などが含まれる。

【0082】

尚、本発明の音声処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

【符号の説明】

【0083】

１：音声処理装置
２：マイクスピーカー装置
３：会議サーバー
２３：指紋センサー
２４：マイク
２５：スピーカー
１００：会議システム
２１１：設定処理部
２１２：第１取得処理部
２１３：第２取得処理部
２１４：識別処理部
２１５：判定処理部
２１６：出力処理部

【図1】