IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特開2023-145911音声処理システム、音声処理方法、及び音声処理プログラム
<>
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図1
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図2
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図3
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図4
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図5
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図6
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図7
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図8
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図9
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図10
  • 特開-音声処理システム、音声処理方法、及び音声処理プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023145911
(43)【公開日】2023-10-12
(54)【発明の名称】音声処理システム、音声処理方法、及び音声処理プログラム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20231004BHJP
   G06F 3/01 20060101ALI20231004BHJP
   H04M 3/56 20060101ALI20231004BHJP
【FI】
H04N7/15
G06F3/01 510
H04M3/56 C
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022052823
(22)【出願日】2022-03-29
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100167302
【弁理士】
【氏名又は名称】種村 一幸
(74)【代理人】
【識別番号】100135817
【弁理士】
【氏名又は名称】華山 浩伸
(72)【発明者】
【氏名】小豆 真瑛
(72)【発明者】
【氏名】西尾 達也
【テーマコード(参考)】
5C164
5E555
5K201
【Fターム(参考)】
5C164FA10
5C164SC11P
5C164VA04S
5C164VA06S
5C164VA10P
5C164YA08
5C164YA21
5E555AA61
5E555AA71
5E555BA13
5E555BB13
5E555BC01
5E555CA42
5E555CA47
5E555CB23
5E555CB64
5E555CB66
5E555DA23
5E555EA08
5E555FA00
5K201BB09
5K201CA06
5K201CB10
5K201CB13
5K201CC05
5K201CC10
5K201DC05
5K201EF03
5K201EF04
(57)【要約】
【課題】マイクスピーカー装置及びユーザーの対応関係を容易に把握することが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。
【解決手段】音声処理システムは、カメラにより撮像される撮像画像を取得する第1取得処理部と、マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得処理部と、前記第2取得処理部により取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定処理部と、前記第1取得処理部により取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定処理部と、前記第1特定処理部により特定される前記マイクスピーカー装置の識別情報と、前記第2特定処理部により特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録処理部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理システムであって、
カメラにより撮像される撮像画像を取得する第1取得処理部と、
マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得処理部と、
前記第2取得処理部により取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定処理部と、
前記第1取得処理部により取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定処理部と、
前記第1特定処理部により特定される前記マイクスピーカー装置の識別情報と、前記第2特定処理部により特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録処理部と、
を備える音声処理システム。
【請求項2】
前記第1特定処理部は、前記音の音データに関連付けられた前記マイクスピーカー装置の識別情報に基づいて、前記マイクスピーカー装置を特定する、
請求項1に記載の音声処理システム。
【請求項3】
前記第2特定処理部は、前記撮像画像から認識されるユーザーの顔画像に基づいて前記発信者を特定する、
請求項1又は請求項2に記載の音声処理システム。
【請求項4】
前記登録処理部は、
第1マイクスピーカー装置を使用する第1発信者が発話した場合に、前記第1特定処理部により特定される前記第1マイクスピーカー装置の識別情報と、前記第2特定処理部により特定される前記第1発信者のユーザー情報とを互いに関連付けて登録し、
続いて、第2マイクスピーカー装置を使用する第2発信者が発話した場合に、前記第1特定処理部により特定される前記第2マイクスピーカー装置の識別情報と、前記第2特定処理部により特定される前記第2発信者のユーザー情報とを互いに関連付けて登録する、
請求項1から請求項3のいずれか1項に記載の音声処理システム。
【請求項5】
複数のマイクスピーカー装置が含まれる場合に、前記登録処理部は、前記複数のマイクスピーカー装置のそれぞれの識別情報に、前記ユーザー情報を関連付けて登録する、
請求項1から請求項4のいずれか1項に記載の音声処理システム。
【請求項6】
前記マイクスピーカー装置の設定内容を調整する調整処理部をさらに備え、
前記登録処理部により、複数のマイクスピーカー装置の識別情報と複数のユーザー情報とがそれぞれ関連付けて登録されている場合において、
前記調整処理部は、発信者からの距離が所定距離未満のユーザーに対応する前記マイクスピーカー装置のスピーカーをオフ状態に調整し、前記発信者からの距離が前記所定距離以上のユーザーに対応する前記マイクスピーカー装置のスピーカーをオン状態に調整する、
請求項5に記載の音声処理システム。
【請求項7】
前記マイクスピーカー装置の設定内容を調整する調整処理部をさらに備え、
前記登録処理部により、複数のマイクスピーカー装置の識別情報と複数のユーザー情報とがそれぞれ関連付けて登録されている場合において、
前記調整処理部は、一のマイクスピーカー装置から取得した音がノイズ音の場合に、前記複数のマイクスピーカー装置のそれぞれのスピーカーをオフ状態に調整する、
請求項5に記載の音声処理システム。
【請求項8】
前記調整処理部は、前記撮像画像から認識されるユーザーの動作と、前記一のマイクスピーカー装置から取得した音の種別とに基づいて前記ノイズ音を特定する、
請求項7に記載の音声処理システム。
【請求項9】
ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理システムであって、
カメラにより撮像される撮像画像を取得する第1取得処理部と、
複数のマイクスピーカー装置のうち第1マイクスピーカー装置が集音した発話音声を当該第1マイクスピーカー装置から取得する第2取得処理部と、
前記第1取得処理部により取得される前記撮像画像に基づいて前記発話音声の発話者を特定する特定処理部と、
前記第1取得処理部により取得される前記撮像画像に基づいて算出される前記発話者からの距離に基づいて、前記複数のマイクスピーカー装置のそれぞれの設定内容を調整する調整処理部と、
を備える音声処理システム。
【請求項10】
前記マイクスピーカー装置は、ネックバンド型の形状を有し、ユーザーの首に装着可能である、
請求項1から請求項9のいずれか1項に記載の音声処理システム。
【請求項11】
ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理方法であって、
一又は複数のプロセッサーが、
カメラにより撮像される撮像画像を取得する第1取得ステップと、
マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得ステップと、
前記第2取得ステップにおいて取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定ステップと、
前記第1取得ステップにおいて取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定ステップと、
前記第1特定ステップにおいて特定される前記マイクスピーカー装置の識別情報と、前記第2特定ステップにおいて特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録ステップと、
を実行する音声処理方法。
【請求項12】
ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、
カメラにより撮像される撮像画像を取得する第1取得ステップと、
マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得ステップと、
前記第2取得ステップにおいて取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定ステップと、
前記第1取得ステップにおいて取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定ステップと、
前記第1特定ステップにおいて特定される前記マイクスピーカー装置の識別情報と、前記第2特定ステップにおいて特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録ステップと、
を一又は複数のプロセッサーに実行させるための音声処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクスピーカー装置の音声の送受信を行う音声処理システム、音声処理方法、及び音声処理プログラムに関する。
【背景技術】
【0002】
従来、マイク及びスピーカーを備え、ユーザーの首周りに装着可能なウェアラブル型のマイクスピーカー装置が知られている。前記マイクスピーカー装置は、装着者の発話音声を集音して他のマイクスピーカー装置に送信したり、他のマイクスピーカー装置から受信した音声を当該装着者に向けて再生したりすることができる。ユーザーは、ウェアラブル型のマイクスピーカー装置を装着することにより、自身の発話音声をマイクに確実に集音(音声認識)させることができ、またスピーカーから再生される音声を容易に聞き取ることができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-196873号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、例えば、同一エリアに複数のマイクスピーカー装置が存在する場合、マイクスピーカー装置と通信を行う装置(例えばパーソナルコンピュータ)の表示画面には、各マイクスピーカー装置の情報(例えば機器番号)が表示されるが、各ユーザーがいずれのマイクスピーカー装置を使用しているのかを把握することは困難である。
【0005】
本発明の目的は、マイクスピーカー装置及びユーザーの対応関係を容易に把握することが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一の態様に係る音声処理システムは、カメラにより撮像される撮像画像を取得する第1取得処理部と、マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得処理部と、前記第2取得処理部により取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定処理部と、前記第1取得処理部により取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定処理部と、前記第1特定処理部により特定される前記マイクスピーカー装置の識別情報と、前記第2特定処理部により特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録処理部と、を備える。
【0007】
本発明の一の態様に係る音声処理システムは、ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理システムであって、カメラにより撮像される撮像画像を取得する第1取得処理部と、複数のマイクスピーカー装置のうち第1マイクスピーカー装置が集音した発話音声を当該第1マイクスピーカー装置から取得する第2取得処理部と、前記第1取得処理部により取得される前記撮像画像に基づいて前記発話音声の発話者を特定する特定処理部と、前記第1取得処理部により取得される前記撮像画像に基づいて算出される前記発話者からの距離に基づいて、前記複数のマイクスピーカー装置のそれぞれの設定内容を調整する調整処理部と、を備える。
【0008】
本発明の他の態様に係る音声処理方法は、ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理方法であって、一又は複数のプロセッサーが、カメラにより撮像される撮像画像を取得する第1取得ステップと、マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得ステップと、前記第2取得ステップにおいて取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定ステップと、前記第1取得ステップにおいて取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定ステップと、前記第1特定ステップにおいて特定される前記マイクスピーカー装置の識別情報と、前記第2特定ステップにおいて特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録ステップと、を実行する音声処理方法である。
【0009】
本発明の他の態様に係る音声処理プログラムは、ユーザーが携帯する携帯型のマイクスピーカー装置によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、カメラにより撮像される撮像画像を取得する第1取得ステップと、マイクスピーカー装置が集音した音を当該マイクスピーカー装置から取得する第2取得ステップと、前記第2取得ステップにおいて取得される前記音の送信元の前記マイクスピーカー装置を特定する第1特定ステップと、前記第1取得ステップにおいて取得される前記撮像画像に基づいて前記音の発信者を特定する第2特定ステップと、前記第1特定ステップにおいて特定される前記マイクスピーカー装置の識別情報と、前記第2特定ステップにおいて特定される前記発信者のユーザー情報とを互いに関連付けて登録する登録ステップと、を一又は複数のプロセッサーに実行させるための音声処理プログラムである。
【発明の効果】
【0010】
本発明によれば、マイクスピーカー装置及びユーザーの対応関係を容易に把握することが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することができる。
【図面の簡単な説明】
【0011】
図1図1は、本発明の実施形態に係る会議システムの構成を示す図である。
図2図2は、本発明の実施形態に係る会議システムの適用例を示す図である。
図3図3は、本発明の実施形態に係るマイクスピーカー装置の構成を示す外観図である。
図4図4は、本発明の実施形態に係る会議システムで利用されるユーザー情報の一例を示す図である。
図5図5は、本発明の実施形態に係る会議システムで利用される機器情報の一例を示す図である。
図6図6は、本発明の実施形態の係る会議システムで撮像される撮像画像の一例を示す図である。
図7図7は、本発明の実施形態の係る会議システムで撮像される撮像画像の他の例を示す図である。
図8図8は、本発明の実施形態の係る会議システムの適用例を示す図である。
図9図9は、本発明の実施形態の係る会議システムの適用例を示す図である。
図10図10は、本発明の実施形態に係る会議システムにおいて実行される登録処理の手順の一例を説明するためのフローチャートである。
図11図11は、本発明の実施形態に係る会議システムにおいて実行される調整処理の手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0012】
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
【0013】
本発明に係る音声処理システムは、例えば所定のエリア(会議室など)において、複数のユーザーがそれぞれマイクスピーカー装置を使用して会話(会議など)を行うケースに適用することができる。前記マイクスピーカー装置は、ユーザーが携帯する携帯型(ウェアラブル型)の音響機器である。また、前記マイクスピーカー装置は、例えばネックバンド型の形状を有し、各ユーザーは、前記マイクスピーカー装置を自身の首に装着して使用することができる。各ユーザーは、前記マイクスピーカー装置のスピーカーから再生される音声を聞き取ることができ、また自身が発話した音声を前記マイクスピーカー装置のマイクに集音させることができる。なお、本発明に係る音声処理システムは、異なる複数のエリアにおいて、複数のユーザーがそれぞれマイクスピーカー装置を使用して会話(オンライン会議など)を行うケースにも適用することができる。
【0014】
以下では、本発明の実施形態の一例として、複数の会議室を接続させて複数のユーザーが参加するオンライン会議を行う会議システムを例に挙げる。
【0015】
[会議システム10]
図1は、本発明の実施形態に係る会議システム10の構成を示す図である。会議システム10は、音声処理装置1と複数のマイクスピーカー装置2と会議サーバー3とカメラCaとを含んでいる。マイクスピーカー装置2は、マイク24及びスピーカー25(図3参照)を搭載する音響機器である。なお、マイクスピーカー装置2は、例えばAIスピーカー、スマートスピーカなどの機能を備えてもよい。会議システム10は、複数のユーザーのそれぞれが自身に装着するウェアラブル型のマイクスピーカー装置2を複数台含み、複数台のマイクスピーカー装置2の間でユーザーの発話音声の音声データを送受信するシステムである。会議システム10は、本発明の音声処理システムの一例である。
【0016】
会議サーバー3は、前記オンライン会議を実現する会議アプリケーションを実行する。また、会議サーバー3は、会議情報を管理する。音声処理装置1は、マイクスピーカー装置2ごとに、マイクスピーカー装置2と当該マイクスピーカー装置2を使用するユーザーとを紐付ける処理(後述の登録処理)を実行する。また、音声処理装置1は、各マイクスピーカー装置2を制御して、会議が開始されると各マイクスピーカー装置2との間で音声を送受信する処理を実行する。さらに、音声処理装置1は、会議において、各マイクスピーカー装置2の設定内容(音量、マイクゲインなど)を調整する処理(後述の調整処理)を実行する。
【0017】
なお、音声処理装置1単体が、本発明の音声処理システムを構成してもよい。本発明の音声処理システムが音声処理装置1単体で構成される場合、音声処理装置1は、マイクスピーカー装置2から取得する音声を記録用音声として蓄積したり、取得した音声を自装置内で認識する処理(音声認識処理)を実行したりしてもよい。
【0018】
カメラCaは、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。カメラCaにより撮像された画像データは音声処理装置1に送信される。例えば、カメラCaは、会議室内に設置され、会議の参加者を含む所定エリアを撮像する。
【0019】
図2には、オンライン会議の一例を示している。オンライン会議の参加者であるユーザーA~HのうちユーザーA,B,C,Dは会議室R1に位置しており、ユーザーE,F,G,Hは会議室R2に位置している。ユーザーA~Hは、それぞれマイクスピーカー装置2A~2Hを首に装着して会議に参加する。また、会議室R1には、音声処理装置1a、カメラCa1、及びディスプレイDP1が設置されており、会議室R2には、音声処理装置1b、カメラCa2、及びディスプレイDP2が設置されている。ディスプレイDP1,DP2は、それぞれの画面が共有されており、例えば会議資料を表示する。音声処理装置1a、カメラCa1、及びディスプレイDP1と、音声処理装置1b、カメラCa2、及びディスプレイDP2とは、ネットワーク(例えばインターネット)を介してデータ通信可能に構成されている。音声処理装置1a,1bは、同一の機能を有する情報処理装置(例えばパーソナルコンピューター)である。以下では、音声処理装置1a,1bにおいて共通の説明する場合は、「音声処理装置1」と称す。
【0020】
会議サーバー3は、ネットワーク(インターネット)を利用して、会議室R1,R2の音声データをマイクスピーカー装置2及び音声処理装置1a,1bを介して送受信する。例えば音声処理装置1aは、ユーザーAの発話音声のデータをマイクスピーカー装置2Aから取得すると、音声データを会議サーバー3に送信する。会議サーバー3は、音声処理装置1aから取得した前記音声データを音声処理装置1bに送信する。音声処理装置1bは、会議サーバー3から取得した前記音声データをユーザーE~Hのマイクスピーカー装置2E~2Hのそれぞれに送信して当該発話音声を再生(放音)させる。なお、音声処理装置1aは、会議サーバー3から取得した前記音声データをユーザーB~Dのマイクスピーカー装置2B~2Dのそれぞれに送信して当該発話音声を再生させてもよい。また、会議サーバー3は、ユーザーの操作を受け付けて会議資料などをディスプレイDP1,DP2に表示させる。このようにして、会議サーバー3は、オンライン会議を実現する。
【0021】
また、会議サーバー3には、オンライン会議に関する会議情報などのデータが記憶される。前記会議情報には、会議ごとに、会議の識別情報(会議ID)、会議の開催場所、会議の開始日時及び終了日時、会議の参加者、会議に使用する資料の各情報が含まれる。例えば前記オンライン会議の主催者は、自身の端末(パーソナルコンピューター)を使用して前記会議情報を事前に登録する。会議サーバー3は、クラウドサーバーで構成されてもよい。
【0022】
[マイクスピーカー装置2]
図3には、マイクスピーカー装置2の外観の一例を示している。図3に示すように、マイクスピーカー装置2は、電源22、接続ボタン23、マイク24、スピーカー25、再生ボタン26、通信部(不図示)などを備える。マイクスピーカー装置2は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。マイクスピーカー装置2は、ユーザーの音声をマイク24を介して取得したり、当該ユーザーに対してスピーカー25から音声を再生(出力)したりする。マイクスピーカー装置2は、各種情報を表示する表示部を備えてもよい。
【0023】
図3に示すように、マイクスピーカー装置2の本体21は、マイクスピーカー装置2を装着したユーザーから見て左右のアームを備え、U字状に形成されている。
【0024】
マイク24は、ユーザーの発話音声を集音し易いように、マイクスピーカー装置2の先端部に配置されている。マイク24は、マイクスピーカー装置2に内蔵されたマイク用基板(不図示)に接続されている。
【0025】
スピーカー25には、マイクスピーカー装置2を装着したユーザーから見て左側のアームに配置されるスピーカー25Lと右側のアームに配置されるスピーカー25Rとが含まれる。スピーカー25L,25Rは、ユーザーが再生音を聞き取り易いように、マイクスピーカー装置2のアームの中央付近に配置されている。スピーカー25L,25Rは、マイクスピーカー装置2に内蔵されたスピーカー用基板(不図示)に接続されている。
【0026】
前記マイク用基板は、音声データを音声処理装置1に送信するためのトランスミッター基板であり、前記通信部に含まれる。また、前記スピーカー用基板は、音声処理装置1から音声データを受信するためのレシーバー基板であり、前記通信部に含まれる。
【0027】
前記通信部は、マイクスピーカー装置2を無線で音声処理装置1との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、前記通信部は、例えばBluetooth方式(Bluetooth;登録商標)によりマイクスピーカー装置2と接続して通信を行う。例えば、ユーザーが電源22をオン状態にした後に接続ボタン23を押下すると、前記通信部は、ペアリング処理を実行してマイクスピーカー装置2を音声処理装置1に接続する。なお、マイクスピーカー装置2と音声処理装置1との間に送信機が配置され、当該送信機がマイクスピーカー装置2とペアリング(Bluetooth接続)し、当該送信機と音声処理装置1とがインターネットを介して接続されてもよい。
【0028】
[音声処理装置1]
図1に示すように、音声処理装置1は、制御部11、記憶部12、操作表示部13、通信部14などを備える情報処理装置(例えばパーソナルコンピュータ)である。なお、音声処理装置1は、1台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、音声処理装置1で実行される各種の処理は、一又は複数のプロセッサーによって分散して実行されてもよい。
【0029】
通信部14は、音声処理装置1を、ネットワークを介してマイクスピーカー装置2、カメラCa、ディスプレイDP1,DP2などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。例えば、通信部14は、Bluetooth方式によるペアリング処理を実行して、マイクスピーカー装置2と接続する。また、通信部14は、オンライン会議を行う場合に、ネットワーク(例えばインターネット)に接続して複数拠点(会議室R1,R2)間のデータ通信を行う。
【0030】
操作表示部13は、各種の情報を表示する液晶ディスプレイ又は有機ELディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。
【0031】
記憶部12は、各種の情報を記憶するHDD(Hard Disk Drive)又はSSD(Solid State Drive)などの不揮発性の記憶部である。具体的には、記憶部12には、マイクスピーカー装置2を使用するユーザーに関するユーザー情報D1、マイクスピーカー装置2に関する機器情報D2などのデータが記憶される。
【0032】
図4には、ユーザー情報D1の一例を示している。図4に示すように、ユーザー情報D1には、ユーザーごとに、「ユーザーID」、「ユーザー名」、「画像情報」などが含まれる。前記ユーザーIDはユーザーの識別情報であり、前記ユーザー名はユーザーの名前である。前記画像情報は、ユーザーを識別可能な画像情報であり、例えば顔画像である。各ユーザーは、予め自身の顔画像をユーザー情報D1に登録することによりマイクスピーカー装置2の使用が許可される。
【0033】
図5には、機器情報D2の一例を示している。図5に示すように、機器情報D2には、マイクスピーカー装置2ごとに、「機器ID」、「ユーザーID」、「音量」、「マイクゲイン」などの情報が含まれる。前記機器IDは、マイクスピーカー装置2の識別情報であり、例えば機器番号が登録される。ここでは、「MS001」~「MS008」のそれぞれは、マイクスピーカー装置2A~2Hのそれぞれに対応する。前記ユーザーIDは、マイクスピーカー装置2を使用するユーザーの識別情報である。例えば、制御部11は、画像情報及び音声情報に基づいて、マイクスピーカー装置2ごとに、使用ユーザーを特定し、特定したユーザーのユーザーIDを機器IDに関連付けて登録する処理(登録処理)を実行する。前記登録処理の具体的構成は後述する。
【0034】
前記音量は、各マイクスピーカー装置2のスピーカー25の再生音量であり、前記マイクゲインは、各マイクスピーカー装置2のマイク24のゲインである。制御部11は、マイクスピーカー装置2ごとに、音量及びマイクゲインを調整することが可能である。なお、音声処理装置1aがマイクスピーカー装置2A~2Dの機器情報D2を記憶及び管理し、音声処理装置1bがマイクスピーカー装置2E~2Hの機器情報D2を記憶及び管理してもよい。
【0035】
なお、ユーザーは、例えばディスプレイDP1,DP2に表示される設定画面(不図示)を操作(タッチ操作)して、音量及びマイクゲインの調整などを行うこともできる。この場合、制御部11は、ユーザー操作に応じて機器情報D2を記憶する。また、制御部11は、ユーザー操作又は初期設定に基づいて、予め音量及びマイクゲインを設定してもよい。
【0036】
また、記憶部12には、制御部11に後述の登録処理(図8参照)を実行させるための登録プログラムなどの制御プログラムが記憶されている。例えば、前記登録プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶されてもよい。
【0037】
また、記憶部12には、制御部11に後述の調整処理(図9参照)を実行させるための調整プログラムなどの制御プログラムが記憶されている。例えば、前記調整プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置で読み取られて記憶部12に記憶されてもよい。
【0038】
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の演算処理を実行させるためのBIOS及びOSなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記RAMは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。
【0039】
具体的には、制御部11は、図1に示すように、画像取得処理部111、音声取得処理部112、機器特定処理部113、ユーザー特定処理部114、登録処理部115、調整処理部116などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、一部又は全部の前記処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記処理部として機能させるためのプログラムであってもよい。
【0040】
画像取得処理部111は、カメラCaにより撮像される撮像画像を取得する。例えば、会議室R1において、カメラCaは、テーブルの周囲を含む所定エリアを撮像すると、撮像画像を音声処理装置1aに送信する。同様に、会議室R2において、カメラCa2は、テーブルの周囲を含む所定エリアを撮像すると、撮像画像を音声処理装置1bに送信する。カメラCaは所定のフレームレートで所定エリアを撮像して撮像画像を音声処理装置1に送信する。
【0041】
図6には、カメラCaが撮像した撮像画像P1の一例を示している。撮像画像P1には、会議室R1で会議に参加するユーザーA,B,C,Dの画像が含まれる。
【0042】
画像取得処理部111は、カメラCa1,Ca2のそれぞれから撮像画像を取得する。また、画像取得処理部111は、会議が開始される前に前記撮像画像を取得してもよい。例えば、ユーザーA,B,C,Dが会議室R1に入室して、各ユーザーがマイクスピーカー装置2を装着して音声処理装置1と接続(ペアリング)させた時点で、カメラCaが撮像を開始し、画像取得処理部111が撮像画像の取得を開始してもよい。
【0043】
なお、制御部11は、マイクスピーカー装置2が接続されたときに、マイクスピーカー装置2から取得した機器IDを機器情報D2(図5参照)に登録してもよい。また、制御部11は、マイクスピーカー装置2が接続されたときに、音量及びマイクゲインの初期値(デフォルト値)を機器情報D2に登録してもよい。画像取得処理部111は、本発明の第1取得処理部の一例である。
【0044】
音声取得処理部112は、マイクスピーカー装置2が集音した音を当該マイクスピーカー装置2から取得する。例えば、マイクスピーカー装置2AのユーザーAが発話した場合、マイクスピーカー装置2AはユーザーAの発話音声を集音し、集音した発話音声の音声データとマイクスピーカー装置2Aの機器ID(機器番号など)とを音声処理装置1に送信する。音声取得処理部112は、マイクスピーカー装置2AからユーザーAの前記音声データ(発話音声)及び機器IDを取得する。例えば、ユーザーAは、テスト用の音声として、「マイクテスト」などの文言を発話する。
【0045】
音声取得処理部112が取得する音は、ユーザーの発話音声に限定されない。例えば、ユーザーAがマイクスピーカー装置2Aの再生ボタン26(図3参照)を押下する操作を行った場合にスピーカー25から再生される音をマイクスピーカー装置2Aが集音し、音声取得処理部112が、マイクスピーカー装置2Aから当該音を取得してもよい。音声取得処理部112は、本発明の第2取得処理部の一例である。
【0046】
機器特定処理部113は、音声取得処理部112により取得される前記音の送信元のマイクスピーカー装置2を特定する。例えば、機器特定処理部113は、マイクスピーカー装置2AからユーザーAの発話音声を取得した場合に、当該発話音声の音声データに付与されたマイクスピーカー装置2Aの機器IDに基づいてマイクスピーカー装置2Aを特定する。このように、機器特定処理部113は、マイクスピーカー装置2から前記音声データを取得することによって、当該音声データに付与された情報(機器IDなど)に基づいて送信元を特定することが可能である。機器特定処理部113は、本発明の第1特定処理部の一例である。
【0047】
ユーザー特定処理部114は、画像取得処理部111により取得される撮像画像に基づいて前記音の発信者を特定する。例えば、ユーザー特定処理部114は、前記撮像画像を画像解析して各ユーザーの顔画像を認識し、認識した顔画像とユーザー情報D1(図4参照)に登録されている画像情報(顔画像)とを照合して、各ユーザーを特定する。例えば、画像取得処理部111が図6に示す撮像画像P1を取得した場合に、ユーザー特定処理部114は、撮像画像P1から認識した顔画像に基づいて、ユーザーA,B,C,Dを特定する。
【0048】
また、ユーザーAが「マイクテスト」の文言を発話した場合に、ユーザー特定処理部114は、音声取得処理部112が「マイクテスト」の発話音声を取得した時点の撮像画像P1に基づいて、発話者(ここではユーザーA)を特定する。例えば、ユーザー特定処理部114は、各顔画像の口元の動きを認識して、現在発言している顔画像のユーザー(ここではユーザーA)を発話者として特定する。
【0049】
他の例として、音声取得処理部112が、ユーザーAがマイクスピーカー装置2Aの再生ボタン26(図3参照)を押下したときに再生される音を取得した場合、ユーザー特定処理部114は、撮像画像P1におけるユーザーの手の動作を認識して、現在マイクスピーカー装置2の再生ボタン26を押す動作をしているユーザー(ここではユーザーA)を発話者(発信者)として特定する。
【0050】
すなわち、本発明の発信者は、音声を発話するユーザー(発話者)に限定されず、所定の動作(ユーザー操作)に応じて音を出力させるユーザーであってもよい。
【0051】
このように、ユーザー特定処理部114は、音声取得処理部112がマイクスピーカー装置2から音を取得したタイミングの撮像画像内におけるユーザーの動作に基づいて、当該音の出力元(発信者)を特定する。ユーザー特定処理部114は、本発明の第2特定処理部の一例である。
【0052】
登録処理部115は、機器特定処理部113により特定されるマイクスピーカー装置2の識別情報(機器ID)と、ユーザー特定処理部114により特定される発信者のユーザー情報(ユーザーID)とを互いに関連付けて登録する登録処理を実行する。上記の例(図6参照)では、登録処理部115は、機器情報D2(図5参照)において、機器特定処理部113が特定したマイクスピーカー装置2Aの機器ID「MS001」に、ユーザー特定処理部114が特定したユーザーAのユーザーID「aaa」を関連付けて登録する。
【0053】
これにより、マイクスピーカー装置2Aと、当該マイクスピーカー装置2Aを使用するユーザーAとが紐付けられる。
【0054】
同様にして、例えば図7に示すように、ユーザーBが「マイクテスト」などの文言を発話すると、機器特定処理部113は、音声データに付与された機器IDに基づいてマイクスピーカー装置2Bを特定し、ユーザー特定処理部114は、撮像画像P2に含まれる顔画像の動きに基づいて発話者(ユーザーB)を特定する。そして、登録処理部115は、機器情報D2(図5参照)において、機器特定処理部113が特定したマイクスピーカー装置2Bの機器ID「MS002」に、ユーザー特定処理部114が特定したユーザーBのユーザーID「bbb」を関連付けて登録する。
【0055】
このように、登録処理部115は、第1マイクスピーカー装置2を使用する第1発信者が発話した場合に、機器特定処理部113により特定される第1マイクスピーカー装置2の機器IDと、ユーザー特定処理部114により特定される第1発信者のユーザーIDとを互いに関連付けて登録し、続いて、第2マイクスピーカー装置2を使用する第2発信者が発話した場合に、機器特定処理部113により特定される第2マイクスピーカー装置2の機器IDと、ユーザー特定処理部114により特定される第2発信者のユーザーIDとを互いに関連付けて登録する。
【0056】
以上のようにして、制御部11は、マイクスピーカー装置2ごとに、当該マイクスピーカー装置2を使用するユーザーを紐付ける。図5では、8台のマイクスピーカー装置2A~2hのそれぞれに、ユーザーA~Hのそれぞれが紐付けられた状態を示している。
【0057】
また、制御部11は、各ユーザーと各マイクスピーカー装置2との対応関係を操作表示部13又はディスプレイDPに表示させてもよい。これにより、各ユーザーと各マイクスピーカー装置2との対応関係を容易に把握することができる。
【0058】
調整処理部116は、マイクスピーカー装置2の設定内容(マイク24及びスピーカー25の設定内容)を調整する調整処理を実行する。具体的には、登録処理部115により、複数のマイクスピーカー装置2の機器IDと複数のユーザーIDとがそれぞれ関連付けて登録されている場合(図5参照)において、調整処理部116は、発信者からの距離が所定距離L1未満のユーザーに対応するマイクスピーカー装置2のスピーカー25(図3参照)をオフ状態(又はミュート状態)に調整し、前記発信者からの距離が所定距離L1以上のユーザーに対応するマイクスピーカー装置2のスピーカー25をオン状態に調整する。
【0059】
図8には、前記調整処理の一例を模式的に示している。図8において、ユーザーU1~U9はそれぞれマイクスピーカー装置2を装着しており、ユーザーU1は発話者である。また、ユーザーU2~U5は、ユーザーU1から所定距離L1未満の範囲に位置しており、ユーザーU6~U9は、ユーザーU1から所定距離L1以上の範囲に位置している。
【0060】
図8のケースは、例えば、ユーザーU1が発表者としてプレゼンテーションを行い、ユーザーU2~U9が聴講者として参加するケースである。この場合、ユーザーU2~U5は、ユーザーU1の近くにいるためユーザーU1の発話音声を直接聞き取ることができる。これに対して、ユーザーU6~U9は、ユーザーU1から離れた位置にいるためユーザーU1の発話音声を直接聞き取ることが困難になる。
【0061】
そこで、調整処理部116は、ユーザーU2~U5が使用するマイクスピーカー装置2のスピーカー25をオフ状態に調整し、ユーザーU6~U9が使用するマイクスピーカー装置2のスピーカー25をオン状態に調整する。
【0062】
例えば、調整処理部116は、前記撮像画像に基づいて、ユーザーU1~U9の位置を特定し、さらに発話者であるユーザーU1を特定する。また、調整処理部116は、前記撮像画像に基づいて、発話者(ユーザーU1)からユーザーU2~U9それぞれまでの距離を算出する。調整処理部116は、前記撮像画像から前記距離を算出することにより、前記調整処理を実行することが可能となる。
【0063】
図9には、前記調整処理の他の例を模式的に示している。図9において、ユーザーU1~U8はそれぞれマイクスピーカー装置2を装着している。ユーザーU1,U2はテーブルT1に位置(着席)しており、ユーザーU3,U4,U5はテーブルT2に位置しており、ユーザーU6,U7,U8はテーブルT3に位置している。テーブルT2のユーザーU3~U5は、テーブルT1から所定距離L2未満の範囲に位置しており、テーブルT3のユーザーU6~U8は、テーブルT1から所定距離L2以上の範囲に位置している。
【0064】
図9のケースは、例えば、ユーザーU1~U5がテーブルT1,T2においてミーティングを行い、ユーザーU6~U8がテーブルT3で別のミーティングを行うケースである。この場合、ユーザーU1,U2の発話音声は、ユーザーU3~U5に届く必要がある一方、ユーザーU6~U8には届く必要がない。
【0065】
そこで、調整処理部116は、ユーザーU1~U5の発話音声を取得した場合には、ユーザーU1~U5が使用するマイクスピーカー装置2のスピーカー25をオン状態に調整し、ユーザーU6~U8が使用するマイクスピーカー装置2のスピーカー25をオフ状態に調整する。
【0066】
一方、調整処理部116は、ユーザーU6~U8の発話音声を取得した場合には、ユーザーU1~U5が使用するマイクスピーカー装置2のスピーカー25をオフ状態に調整し、ユーザーU6~U8が使用するマイクスピーカー装置2のスピーカー25をオン状態に調整する。このように、調整処理部116は、発話者と当該発話者からの距離とに基づいて、各マイクスピーカー装置2のスピーカー25を調整してもよい。
【0067】
[登録処理]
以下、図10を参照しつつ、音声処理装置1の制御部11によって実行される登録処理の手順の一例について説明する。
【0068】
なお、本発明は、前記登録処理に含まれる一又は複数のステップを実行する登録方法(本発明の音声処理方法)の発明として捉えることができる。また、ここで説明する前記登録処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記登録処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11が前記登録処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、一又は複数のプロセッサーが前記登録処理における各ステップを分散して実行してもよい。
【0069】
ここでは、図6に示す例に挙げて説明する。先ず、ステップS11において、制御部11は撮像画像P1を取得する。
【0070】
次にステップS12において、制御部11は、ユーザーの発話音声を取得したか否かを判定する。例えば、マイクスピーカー装置2AのユーザーAが発話した場合、マイクスピーカー装置2AはユーザーAの発話音声を集音し、集音した音声の音声データとマイクスピーカー装置2Aの機器IDとを音声処理装置1に送信する。制御部11は、マイクスピーカー装置2AからユーザーAの前記音声データ(発話音声)及び機器IDを取得する。制御部11は、前記発話音声を取得すると(S12:Yes)、処理をステップS13に移行させる。一方、制御部11は、前記発話音声を取得するまで待機する(S12:No)。
【0071】
ステップS13において、制御部11は、取得した前記発話音声の送信元のマイクスピーカー装置2を特定する。例えば、制御部11は、マイクスピーカー装置2AからユーザーAの発話音声を取得した場合に、当該発話音声の音声データに付与されたマイクスピーカー装置2Aの機器IDに基づいてマイクスピーカー装置2Aを特定する。
【0072】
次にステップS14において、制御部11は、前記発話音声の発話者を特定する。例えば、制御部11は、撮像画像P1を画像解析して各ユーザーの顔画像を認識し、認識した顔画像とユーザー情報D1(図4参照)に登録されている画像情報(顔画像)とを照合して、ユーザーA,B,C,Dを特定する。また、ユーザーAが「マイクテスト」の文言を発話した場合に、制御部11は、「マイクテスト」の発話音声を取得した時点の撮像画像P1における口元の動きに基づいて、発話者(ユーザーA)を特定する。
【0073】
次にステップS15において、制御部11は、特定したマイクスピーカー装置2の機器IDと発信者のユーザーIDとを互いに関連付けて登録する。例えば、制御部11は、機器情報D2(図5参照)において、マイクスピーカー装置2Aの機器ID「MS001」に、ユーザーAのユーザーID「aaa」を関連付けて登録する。これにより、マイクスピーカー装置2Aと、当該マイクスピーカー装置2Aを使用するユーザーAとが紐付けられる。
【0074】
制御部11は、ユーザーAとマイクスピーカー装置2Aとの紐付けが完了すると、続いてユーザーBの発話音声(図7参照)に基づいて、ユーザーBとマイクスピーカー装置2Bとの紐付けを行う。以上のようにして、制御部11は、前記登録処理を繰り返し実行して、マイクスピーカー装置2ごとに、当該マイクスピーカー装置2を使用するユーザーを紐付ける(図5参照)。
【0075】
[調整処理]
以下、図11を参照しつつ、音声処理装置1の制御部11によって実行される調整処理の手順の一例について説明する。
【0076】
なお、本発明は、前記調整処理に含まれる一又は複数のステップを実行する調整方法(本発明の音声処理方法)の発明として捉えることができる。また、ここで説明する前記調整処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記調整処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11が前記調整処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、一又は複数のプロセッサーが前記調整処理における各ステップを分散して実行してもよい。
【0077】
ここでは、図8に示す例に挙げて説明する。また、ここでは、ユーザーU1~U9と各マイクスピーカー装置2とが紐付けられているものとする。
【0078】
先ず、ステップS21において、制御部11は撮像画像P1を取得する。
【0079】
次にステップS22において、制御部11は、前記発話音声の発話者を特定する。例えば、制御部11は、撮像画像P1を画像解析して各ユーザーの顔画像を認識し、認識した顔画像とユーザー情報D1(図4参照)に登録されている画像情報(顔画像)とを照合して、ユーザーU1~U9を特定する。また、ユーザーU1が発話した場合に、制御部11は、発話音声を取得した時点の撮像画像における口元の動きに基づいて、発話者(ユーザーU1)を特定する。
【0080】
次にステップS23において、制御部11は、前記撮像画像に基づいて、発話者(ユーザーU1)からユーザーU2~U9それぞれまでの距離を算出する。
【0081】
次にステップS24において、制御部11は、前記距離が所定距離L1未満であるか否かを判定する。図8の例では、制御部11は、ユーザーU2~U5についてはユーザーU1からの距離が所定距離L1未満であると判定し、ユーザーU6~U9についてはユーザーU1からの距離が所定距離L1以上であると判定する。制御部11は、前記距離が所定距離L1未満である場合(S24:Yes)、処理をステップS25に移行させる。一方、制御部11は、前記距離が所定距離L1以上である場合(S24:No)、処理をステップS26に移行させる。
【0082】
ステップS25では、制御部11はスピーカー25をオフ状態に調整する。例えば、制御部11は、ユーザーU2~U5が使用するマイクスピーカー装置2のスピーカー25をオフ状態(ミュート)に調整する。
【0083】
ステップS26では、制御部11はスピーカー25をオン状態に調整する。例えば、制御部11は、ユーザーU6~U9が使用するマイクスピーカー装置2のスピーカー25をオン状態(ミュート解除)に調整する。
【0084】
以上のように、制御部11は、発話者からの距離に応じてマイクスピーカー装置2の設定を調整する。
【0085】
以上説明したように、本実施形態に係る会議システム10は、ユーザーが携帯する携帯型のマイクスピーカー装置2によりユーザーの発話音声の音声データを送受信するシステムである。また、会議システム10は、カメラCaにより撮像される撮像画像を取得し、マイクスピーカー装置2が集音した音を当該マイクスピーカー装置2から取得する。また、会議システム10は、取得した前記音の送信元のマイクスピーカー装置2を特定し、取得した前記撮像画像に基づいて前記音の発信者を特定する。そして、会議システム10は、特定したマイクスピーカー装置2の識別情報と前記発信者のユーザー情報とを互いに関連付けて登録する。
【0086】
上記構成によれば、例えばマイクスピーカー装置2を装着したユーザーが発話するだけで、当該ユーザーとマイクスピーカー装置2とを紐付けることができる。よって、マイクスピーカー装置2及びユーザーの対応関係を容易に把握することが可能となる。
【0087】
また、本実施形態に係る会議システム10は、取得した撮像画像に基づいて算出される発話者からの距離に基づいて、複数のマイクスピーカー装置2のそれぞれの設定内容を調整する。
【0088】
上記構成によれば、ユーザーの操作に依らず、当該ユーザーのマイクスピーカー装置2の設定内容(例えば、スピーカー25のON/OFF)を自動的に調整することができる。なお、前記設定内容は、スピーカー25のON/OFFに限定されず、スピーカー25の音量、マイクゲインなどであってもよい。
【0089】
本発明は、上述の実施形態に限定されない。例えば、音声処理装置1は、前記登録処理を実行する機能を備え、前記調整処理を実行する機能を備えていない構成であってもよい。
【0090】
また例えば、音声処理装置1は、前記調整処理を実行する機能を備え、前記登録処理を実行する機能を備えていない構成であってもよい。例えば、音声処理装置1(本発明の音声処理システム)は、カメラCaにより撮像される撮像画像を取得する画像取得処理部111と、複数のマイクスピーカー装置2のうち第1マイクスピーカー装置2が集音した発話音声を第1マイクスピーカー装置2から取得する音声取得処理部112と、画像取得処理部111により取得される前記撮像画像に基づいて前記発話音声の発話者を特定するユーザー特定処理部114と、画像取得処理部111により取得される前記撮像画像に基づいて算出される前記発話者からの距離に基づいて、複数のマイクスピーカー装置2のそれぞれの設定内容を調整する調整処理部116と、を備えて構成されてもよい。
【0091】
すなわち、本発明の音声処理システムは、少なくとも前記登録処理及び前記調整処理のいずれかの機能を備えて構成される。
【0092】
前記調整処理の他の例として、制御部11は、一のマイクスピーカー装置2から取得した音がノイズ音の場合に、複数のマイクスピーカー装置2のそれぞれのスピーカー25をオフ状態に調整してもよい。制御部11は、撮像画像から認識されるユーザーの動作と、一のマイクスピーカー装置2から取得した音の種別とに基づいて前記ノイズ音を特定する。例えば、マイクスピーカー装置2にユーザーの髪の毛が触れて、接触音がマイクスピーカー装置2に集音された場合に、制御部11は、前記接触音をノイズ音と判定する。この場合、制御部11は、ノイズ音が他のマイクスピーカー装置2から出力されないように、前記ノイズ音を除去する。前記接触音は、例えば、ユーザーが髪の毛をかき上げたり、首を横に振ったりする動作により生じする。また、制御部11は、ユーザーの発話音声以外の音をノイズ音として予め登録してもよい。
【0093】
また、例えば、椅子に着席していたユーザーが立ち上がったときに椅子と床が擦れて、擦れ音がマイクスピーカー装置2に集音された場合に、制御部11は、前記擦れ音をノイズ音と判定する。この場合、制御部11は、ノイズ音が他のマイクスピーカー装置2から出力されないように、前記ノイズ音を除去する。
【0094】
また、前記調整処理の他の例として、例えば図2に示す会議室R1からユーザーCが退室した場合に、制御部11は、図6に示す撮像画像P1からユーザーCの画像を認識しなくなると、ユーザーCに紐付けられていたマイクスピーカー装置2の接続(通信)を切断する。また、この際に、制御部11は、「接続を解除します」のメッセージを前記マイクスピーカー装置2のスピーカー25から出力させてもよい。さらに、制御部11は、前記メッセージに対して前記ユーザーから承諾する旨の回答を取得した場合に、当該ユーザーに紐付けられたマイクスピーカー装置2の接続を解除してもよい。
【0095】
また例えば会議室R1から退出したユーザーCが再び会議室R1に入室した場合に、制御部11は、図6に示す撮像画像P1からユーザーCの画像を認識すると、ユーザーCに紐付けられていたマイクスピーカー装置2を再接続(通信)する。また、この際に、制御部11は、「再接続します」のメッセージを前記マイクスピーカー装置2のスピーカー25から出力させてもよい。さらに、制御部11は、前記メッセージに対して前記ユーザーから承諾する旨の回答を取得した場合に、当該ユーザーに紐付けられたマイクスピーカー装置2を再接続してもよい。
【0096】
また、制御部11は、ユーザーCが会議室R1から退室した場合に、マイク24をオフ状態に調整(又はマイクゲインを低下)し、ユーザーCが会議室R1に戻った場合に、マイク24をオン状態に調整(又はマイクゲインを上昇)してもよい。
【0097】
なお、本発明の他の実施形態として、会議サーバー3が音声処理装置1の機能を備えてもよい。すなわち、会議サーバー3は、マイクスピーカー装置2から音声データを取得し、取得した前記音声データを他のマイクスピーカー装置2に送信する機能を備えてもよい。
【0098】
また、本発明の音声処理システムは、音声処理装置1単体で構成されてもよいし、会議サーバー3単体で構成されてもよいし、音声処理装置1及び会議サーバー3の組み合わせにより構成されてもよい。
【符号の説明】
【0099】
1 :音声処理装置
2 :マイクスピーカー装置
3 :会議サーバー
Ca :カメラ
10 :会議システム
11 :制御部
12 :記憶部
13 :操作表示部
14 :通信部
111 :画像取得処理部
112 :音声取得処理部
113 :機器特定処理部
114 :ユーザー特定処理部
115 :登録処理部
116 :調整処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11