IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-130681マスク処理方法、マスク処理装置、およびプログラム
<>
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図1
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図2
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図3
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図4
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図5
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図6
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図7
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図8
  • 特開-マスク処理方法、マスク処理装置、およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130681
(43)【公開日】2024-09-30
(54)【発明の名称】マスク処理方法、マスク処理装置、およびプログラム
(51)【国際特許分類】
   G10K 11/175 20060101AFI20240920BHJP
   H04R 3/00 20060101ALI20240920BHJP
   G10L 17/00 20130101ALI20240920BHJP
   G06T 7/00 20170101ALI20240920BHJP
【FI】
G10K11/175
H04R3/00 320
G10L17/00 200C
G06T7/00 660A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023040541
(22)【出願日】2023-03-15
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】鵜飼 訓史
【テーマコード(参考)】
5D061
5D220
5L096
【Fターム(参考)】
5D061FF05
5D220BB03
5D220BC05
5L096AA06
5L096CA02
5L096DA02
5L096JA11
(57)【要約】
【課題】イベントの非参加者の音声または顔画像を適切にマスクすることができるマスク処理方法を提供する。
【解決手段】マスク処理方法は、予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を蓄積し、現在のイベントに参加する参加者を示す第2参加者情報を受け付けて、カメラで撮影された顔画像またはマイクで取得した音声を含むセンサ信号を受け付けて、前記対応に基づいて前記第2参加者情報および前記センサ信号を対比することで、前記センサ信号に含まれる前記顔画像または前記音声に対して参加者および非参加者を判定し、前記センサ信号のうち前記非参加者に対応するセンサ信号にマスク処理を行う。
【選択図】図3
【特許請求の範囲】
【請求項1】
予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を蓄積し、
現在のイベントに参加する参加者を示す第2参加者情報を受け付けて、
カメラで撮影された顔画像またはマイクで取得した音声を含むセンサ信号を受け付けて、
前記対応に基づいて前記第2参加者情報および前記センサ信号を対比することで、前記センサ信号に含まれる前記顔画像または前記音声に対して参加者および非参加者を判定し、
前記センサ信号のうち前記非参加者に対応するセンサ信号にマスク処理を行う、
マスク処理方法。
【請求項2】
前記対応は、第1参加者情報と顔画像との対応、および前記第1参加者情報と音声との対応を含み、
前記センサ信号は、顔画像および音声を含み、
前記マスク処理は、前記非参加者に対応する顔画像のセンサ信号、および前記非参加者に対応する音声のセンサ信号に対して行われる、
請求項1に記載のマスク処理方法。
【請求項3】
前記マスク処理は、前記センサ信号に含まれる前記非参加者の顔画像にエフェクト処理を施すことを含む、
請求項1または請求項2に記載のマスク処理方法。
【請求項4】
前記マスク処理は、前記マイクの指向性を制御する処理を含み、前記非参加者の方向に前記マイクの指向性を向けないように設定する、
請求項1または請求項2に記載のマスク処理方法。
【請求項5】
前記マスク処理は、前記センサ信号に含まれる前記非参加者の音声にマスキング音を重畳する、またはマスキング音に置換する処理を含む、
請求項1または請求項2に記載のマスク処理方法。
【請求項6】
前記判定は、前記センサ信号に含まれる顔画像または音声に一致する前記第1参加者情報の顔画像または音声がある場合に、対応する前記第2参加者情報を参加者とし、
前記センサ信号に含まれる顔画像または音声に一致しない前記第2参加者情報を非参加者とする、
請求項1または請求項2に記載のマスク処理方法。
【請求項7】
前記判定は、前記センサ信号を変数として入力し、前記第2参加者情報を対応として出力する所定の関数を前記対応に基づいて適応させた適応推定器を用いて行われる、
請求項6に記載のマスク処理方法。
【請求項8】
前記判定は、第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を入力とし、前記センサ信号と前記第2参加者情報との対応を出力として訓練された訓練済モデルを用いて行われる、
請求項1または請求項2に記載のマスク処理方法。
【請求項9】
予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を蓄積し、
現在のイベントに参加する参加者を示す第2参加者情報を受け付けて、
カメラで撮影された顔画像またはマイクで取得した音声を含むセンサ信号を受け付けて、
前記対応に基づいて前記第2参加者情報および前記センサ信号を対比することで、前記センサ信号に含まれる前記顔画像または前記音声に対して参加者および非参加者を判定し、
前記センサ信号のうち前記非参加者に対応するセンサ信号にマスク処理を行う、
プロセッサを備えたマスク処理装置。
【請求項10】
前記対応は、第1参加者情報と顔画像との対応、および前記第1参加者情報と音声との対応を含み、
前記センサ信号は、顔画像および音声を含み、
前記マスク処理は、前記非参加者に対応する顔画像のセンサ信号、および前記非参加者に対応する音声のセンサ信号に対して行われる、
請求項9に記載のマスク処理装置。
【請求項11】
前記マスク処理は、前記センサ信号に含まれる前記非参加者の顔画像にエフェクト処理を施すことを含む、
請求項9または請求項10に記載のマスク処理装置。
【請求項12】
前記マスク処理は、前記マイクの指向性を制御する処理を含み、前記非参加者の方向に前記マイクの指向性を向けないように設定する、
請求項9または請求項10に記載のマスク処理装置。
【請求項13】
前記マスク処理は、前記センサ信号に含まれる前記非参加者の音声にマスキング音を重畳する、またはマスキング音に置換する処理を含む、
請求項9または請求項10に記載のマスク処理装置。
【請求項14】
前記判定は、
前記センサ信号に含まれる顔画像または音声に一致する前記第1参加者情報の顔画像または音声がある場合に、対応する前記第2参加者情報を参加者とし、
前記センサ信号に含まれる顔画像または音声に一致しない前記第2参加者情報を非参加者とする、
請求項9または請求項10に記載のマスク処理装置。
【請求項15】
予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を蓄積し、
現在のイベントに参加する参加者を示す第2参加者情報を受け付けて、
カメラで撮影された顔画像またはマイクで取得した音声を含むセンサ信号を受け付けて、
前記対応に基づいて前記第2参加者情報および前記センサ信号を対比することで、前記センサ信号に含まれる前記顔画像または前記音声に対して参加者および非参加者を判定し、
前記センサ信号のうち前記非参加者に対応するセンサ信号にマスク処理を行う、
処理を情報処理装置に実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、マスク処理方法、マスク処理装置、およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、利用者の視線を検出して音声を増強する。表示部を注視していると判断した場合に指向性を向ける音処理システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012-29209号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の処理は、会議参加者ではない利用者(非会議参加者)の音声を取得する可能性がある。
【0005】
そこで、本発明の一実施形態の目的は、イベントの非参加者の音声または顔画像を適切にマスクすることができるマスク処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
マスク処理方法は、予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または前記第1参加者情報と音声との対応を蓄積し、現在のイベントに参加する参加者を示す第2参加者情報を受け付けて、カメラで撮影された顔画像またはマイクで取得した音声を含むセンサ信号を受け付けて、前記対応に基づいて前記第2参加者情報および前記センサ信号を対比することで、前記センサ信号に含まれる前記顔画像または前記音声に対して参加者および非参加者を判定し、前記センサ信号のうち前記非参加者に対応するセンサ信号にマスク処理を行う。
【発明の効果】
【0007】
本発明の一実施形態によれば、イベントの非参加者の音声または顔画像を適切にマスクすることができる
【図面の簡単な説明】
【0008】
図1】音信号処理装置1の構成を示すブロック図である。
図2】プロセッサ12の機能的ブロック図である。
図3】プロセッサ12により実行される音信号処理方法の動作を示すフローチャートである。
図4】データベース142の構築時の動作を示すフローチャートである。
図5】データベース142に蓄積される当該対応を示す図である。
図6】データベース142に蓄積される当該対応および現在の会議における対応を示す図である。
図7】データベース142に蓄積される当該対応および現在の会議における対応を示す図である。
図8】変形例2に係るプロセッサ12の機能的ブロック図である。
図9】変形例3に係るプロセッサ12の機能的ブロック図である。
【発明を実施するための形態】
【0009】
図1は、音信号処理装置1の構成を示すブロック図である。音信号処理装置1は、本発明のマスク処理装置の一例である。音信号処理装置1は、情報処理装置(例えばパーソナルコンピュータ)である。
【0010】
音信号処理装置1は、カメラ11、プロセッサ12、フラッシュメモリ14、RAM15、ユーザインタフェース(I/F)16、スピーカ17、6個のマイク18A~18F、および通信I/F19を備えている。なお、本実施形態において、信号とはデジタル信号を意味する。
【0011】
カメラ11、スピーカ17、およびマイク18A~18Fは、例えば表示器(不図示)の上または下に配置される。カメラ11は、センサの一例であり、表示器(不図示)の前に居る利用者の画像を取得する。マイク18A~18Fは、センサの一例であり、表示器(不図示)の前に居る利用者の音声を取得する。スピーカ17は、表示器(不図示)の前に居る利用者に対して、音声を出力する。なお、マイクの数は6個に限らない。マイクは、1つのマイクであってもよい。本実施形態のマイクの数は6個であり、アレイマイクを構成する。プロセッサ12は、マイク18A~18Fで取得した音信号にビームフォーミング処理を施す。
【0012】
プロセッサ12は、フラッシュメモリ14から動作用のプログラムをRAM15に読み出すことにより、音信号処理装置1の動作を統括的に制御する制御部として機能する。例えば、フラッシュメモリ14は、プログラム141を記憶している。プロセッサ12は、プログラム141により、本発明のマスク処理方法を実行する。なお、プログラムは自装置のフラッシュメモリ14に記憶しておく必要はない。プロセッサ12は、例えばサーバ等から都度ダウンロードしてRAM15に読み出してもよい。
【0013】
プロセッサ12は、映像信号および音信号をそれぞれ処理する信号処理部である。映像信号および音信号は、それぞれ本発明におけるセンサ信号の一例である。プロセッサ12は、例えば非参加者の画像にマスク処理を施す。また、プロセッサ12は、非参加者の音声を収音しないようにビームフォーミング処理等の指向性処理を施すことで、非参加者の音声にマスク処理を施す。ビームフォーミングは、例として、それぞれの会議参加者の方向に向けた遅延和型収音ビーム出力を加算する処理、それぞれの会議参加者の方向に利得が一定の拘束を付けて全体パワーを最小化する最小分散(MinimumVariance)処理、会議参加者の方向に向けた遅延和型収音ビーム出力の加算と会議参加者の方向に死角を形成するブロッキング行列(Block Matrix,BM)の出力とを利用するサイドローブキャンセラ(Generalized Sidelobe Canceller, GSC)処理、帯域ごとに分割された遅延和型収音ビーム出力とマイク装置の出力とのパワーを比較し、分割された遅延和型収音ビーム出力の方が一定以上小さい時のみその分割された遅延和型収音ビーム出力を減衰し、分割された遅延和型収音ビーム出力を再統合するバイナリマスク処理、独立成分分析(ICA)等の音源分離方法で収音信号から音源を分離し、分離された各音源信号の到来方向を逆射影法(ProjectionBack)で判定し、会議参加者の方向から来た音源信号のみをミックスする処理等が挙げられる。
【0014】
通信I/F19は、プロセッサ12により処理された後の映像信号および音信号を、他の装置に送信する。また、通信I/F19は、他の装置から映像信号および音信号を受信する。通信I/F19は、受信した映像信号を表示器(不図示)に出力する。通信I/F19は、受信した音信号をスピーカ17に出力する。表示器は、他の装置のカメラで取得した映像を表示する。スピーカ17は、他の装置のマイクで取得した話者の音声を出力する。他の装置は、例えば遠隔地に設置された音信号処理装置である。これにより、音信号処理装置1は、遠隔地との音声会話を行うためのコミュニケーションシステムとして機能する。
【0015】
図2は、音信号処理装置1の機能的ブロック図である。これら機能的構成は、プロセッサ12により実現される。図2に示す様に、音信号処理装置1は、機能的に、音信号入力部50、音信号処理部51、出力部52、映像信号入力部70、特徴量検出部101、推定器102、および映像信号処理部71を備えている。これら機能的構成は、プログラム141により構成される。また、フラッシュメモリ14は、データベース142を有する。
【0016】
映像信号入力部70は、カメラ11から映像信号を受け付ける。音信号入力部50は、複数のマイク18A~18Fで取得した複数の音信号を受け付ける。音信号処理部51は、これらの音信号にビームフォーミング処理を施す。出力部52は、ビームフォーミング処理された後の音信号を出力する。
【0017】
特徴量検出部101は、映像信号入力部70で受け付けた映像信号から顔画像の特徴量を取得する。顔画像の特徴量は、眉、目、鼻、口等の大きさ、傾き、位置関係、傾き、等の情報からなる。また、特徴量検出部101は、音信号入力部50で受け付けた複数の音信号から音声の特徴量を取得する。音声の特徴量は、例えばビームフォーミング処理により形成される音声ビームの方向を示す情報である。
【0018】
推定器102は、特徴量検出部101で検出した特徴量と予め過去の会議に参加した参加者を示す参加者情報との対応を求める。推定器102は、求めた対応をデータベース142に登録する。また、推定器102は、求めた対応に基づいて、音信号処理部51および映像信号処理部71の信号処理パラメータを制御する。
【0019】
図3は、プロセッサ12により実行される音信号処理方法の動作を示すフローチャートである。プロセッサ12は、推定器102により、予め過去の会議に参加した参加者を示す参加者情報と特徴量との対応をデータベース142に蓄積する(S11)。すなわち、プロセッサ12は、予め過去のイベントに参加した参加者を示す第1参加者情報と顔画像との対応、または第1参加者情報と音声との対応を蓄積する。図4は、データベース142の構築時の動作を示すフローチャートである。
【0020】
プロセッサ12は、参加者情報を受け付ける(S51)。参加者情報とは、利用者の名前、メールアドレス等の参加者を特定するための情報である。これら情報は、例えば会議を行うためのアプリケーションプログラムに入力された情報に基づいて取得される。
【0021】
次に、特徴量検出部101は、上述した様に、顔画像の特徴量および音声の特徴量を取得する(S52)。
【0022】
推定器102は、S51で受け付けた参加者情報とS52で検出した特徴量との対応を推定する(S53)。
【0023】
推定は、例えば、顔画像および音声の特徴量を変数として入力し、参加者を対応として出力する、適応推定器を用いて行われる。適応推定器は、ある会議において、ある特徴量Aを取得し、受け付けた参加者情報が1名(α)である場合、所定のベクトルを入力とし、ベクトルを出力とする関数f(A)=α+Δで表される。すなわち、適応推定器は、ある特徴量Aを入力ベクトルとして、参加者情報αを出力ベクトルとする関数である。Δは誤差ベクトルである。当該関数は、当該Δ=f(A)-αが最小となるように適応される。ここで例えば、αはその参加者を示す要素の値のみが1でありそれ以外の要素の値が0であるベクトルである。
【0024】
また、適応推定器は、2名以上の参加者情報を受け付けたまたは2名以上の特徴量を取得した場合、全ての参加者情報および特徴量の対応を求めて、最も誤差の少ない組み合わせを出力する。例えば、適応推定器は、ある会議において、ある特徴量A,Bを取得し、受け付けた参加者情報が2名(α、β)である場合、Aとαを組み合わせ、Bとβを組み合わせた場合の誤差e{(A,α),(B,β)}=|f(A)-α|+|f(B)-β|、およびAとβを組み合わせ、Aとβを組み合わせた場合の誤差e{(A,β),(B,α)}=|f(A)-β|+|f(B)-α|を求め、最も誤差eの少ない結果を出力する。ここで、例えば|x|はベクトルxの絶対値である。|x|をベクトルxの二乗ノルムとしてもよい。
【0025】
プロセッサ12は、以上の様にして求めた参加者情報と特徴量の対応をデータベース142に登録する(S54)。図5は、データベース142に蓄積される当該対応を示す図である。データベース142は、会議の情報(会議名、開催日時等の情報)、参加者情報、および特徴量を対応付けて記憶している。例えば、ある会議1では、データベース142は、参加者の名称αおよび特徴量Aを対応付けて記憶している。また、データベース142は、会議2について、参加者の名称αおよび特徴量Aを対応付け、かつ参加者の名称βおよび特徴量Bを対応付けて記憶している。また、データベース142は、会議3について、参加者の名称γおよび特徴量Dを対応付けて記憶している。
【0026】
図3に戻り、プロセッサ12は、現在の会議に参加する参加者を示す第2参加者情報を受け付ける(S12)。第2参加者情報は、上述と同様に、利用者の名前、メールアドレス等の参加者を特定するための情報である。第2参加者情報は、例えば会議を行うためのアプリケーションプログラムから受け付ける。
【0027】
プロセッサ12は、現在受け付けている映像信号および音信号に基づいて顔画像の特徴量および音声の特徴量を取得する(S13)。
【0028】
プロセッサ12は、参加者および非参加者を判定する(S14)。具体的には、プロセッサ12は、データベース142に蓄積された対応に基づいて第2参加者情報および特徴量を対比することで、映像信号に含まれる顔画像または音信号に含まれる音声に対して、参加者および非参加者を判定する。
【0029】
例えば、プロセッサ12は、データベース142に登録されている特徴量がある場合に、対応する第2参加者情報を参加者とする。より具体的に、例えばデータベース142に、映像信号に含まれる顔画像または音信号に含まれる音声に一致する第1参加者情報の顔画像または音声がある場合に、対応する第2参加者情報を参加者とする。また、プロセッサ12は、映像信号に含まれる顔画像または音信号に含まれる音声に一致しない第2参加者情報を非参加者とする。
【0030】
例えば、プロセッサ12は、適応推定器を用いて全探索を行う。図6および図7は、データベース142に蓄積される当該対応および現在の会議における対応を示す図である。
【0031】
プロセッサ12は、会議4の参加者情報として、αおよびβの2つの情報を受け付けて、特徴量として、A,B,Cの3つの情報を検出している。この場合、参加者情報の数は特徴量の数より少ない。そこでプロセッサ12は、参加者情報xを追加する。プロセッサ12は、全ての参加者情報および特徴量の対応を求めて、最も誤差の少ない組み合わせを出力する。つまり、プロセッサ12は、誤差e{(A,α),(B,β),(C,x)}=|f(A)-α|+|f(B)-β|+|f(C)-x|、誤差e{(A,α),(B,x),(C,β)}=|f(A)-α|+|f(B)-x|+|f(C)-β|、誤差e{(A,β),(B,α),(C,x)}=|f(A)-β|+|f(B)-α|+|f(C)-x|、誤差e{(A,β),(B,x),(C,α)}=|f(A)-β|+|f(B)-x|+|f(C)-α|、誤差e{(A,x),(B,α),(C,β)}=|f(A)-x|+|f(B)-α|+|f(C)-β|、誤差e{(A,x),(B,β),(C,α)}=|f(A)-x|+|f(B)-β|+|f(C)-α|、を求める。この場合、Aとαの組み合わせ、Bとβの組み合わせ、Cとxの組み合わせが最も誤差eの少ない組み合わせになる。そこで、プロセッサ12は、AおよびBの特徴量を参加者として判定し、Cの特徴量を非参加者として判定する。
【0032】
なお、図7に示す様に、参加者情報の数が特徴量の数より多い場合、プロセッサ12は、仮の特徴量Xを追加し、上記誤差eを求める。プロセッサ12は、会議5の参加者情報として、α、βおよびγの3つの情報を受け付けて、特徴量として、A,Bの2つの情報を検出している。プロセッサ12は、α、β、γの参加者情報と、A,B,Xの特徴量との全ての組み合わせについて誤差eを求めて、最も誤差eの少ない組み合わせを求める。
【0033】
以上の様にしてプロセッサ12は、顔画像および音声の特徴量に対して参加者および非参加者を判定する。次に、プロセッサ12は、非参加者に対応する顔画像および音声にマスク処理を行う(S15)。具体的に、映像信号処理部71は、映像信号入力部70で受付けた映像信号のうち非参加者の顔画像に対応する箇所にぼかし等のエフェクト処理を施す、あるいは塗りつぶし処理等の信号処理を行う。また、音信号処理部51は、非参加者の音声の到来方向に音声ビームの指向性を向けないようにビームフォーミングを行う。あるいは、音信号処理部51は、非参加者の音声をミュートしてもよいし、非参加者の音声を理解できないように、ホワイトノイズ等のマスキング音を重畳または話者音声をマスキング音に置換してもよい。
【0034】
以上の様に、本実施形態のマスク処理方法は、イベントの非参加者の音声または顔画像を適切にマスクする。すなわち、マスク処理方法は、センサ信号のうち非参加者に対応するセンサ信号にマスク処理を行う。これにより、利用者は、オープンスペース等の会議非参加者と参加者が同じ空間に居る環境で会議をする場合でも、会議に関係のない人を参加者として認識せず、快適な会議を実現できる、という新たな顧客価値を得ることができる。
【0035】
(変形例1)
上記実施形態では、音信号および映像信号を入力して、音声および顔画像の特徴量と、を検出して、音信号および映像信号のうち非参加者の音声および顔画像にマスク処理を行う例を示した。しかし、本発明のマスク処理方法は、非参加者の音声にマスク処理を行うだけでもよい。また、本発明のマスク処理方法は、非参加者の顔画像にマスク処理を行うだけでもよい。
【0036】
(変形例2)
図8は、変形例2に係るプロセッサ12の機能的ブロック図である。変形例2に係るプロセッサ12は、図2の構成と比較して、映像信号入力部70を備えていない。すなわちプロセッサ12は、カメラ11から映像信号を入力していない。このように、変形例2のマスク処理方法は、音声の特徴量を検出して、音声の特徴量に基づいて非参加者を判定し、非参加者の音声にマスク処理を行うだけでもよい。
【0037】
(変形例3)
図9は、変形例3に係るプロセッサ12の機能的ブロック図である。変形例3に係るプロセッサ12は、図2の構成と比較して、音信号入力部50および音信号処理部51を備えていない。すなわちプロセッサ12は、マイク18A~18Fから音信号を入力していない。このように、変形例3のマスク処理方法は、顔画像の特徴量を検出して、顔画像の特徴量に基づいて非参加者を判定し、非参加者の顔画像にマスク処理を行うだけでもよい。
【0038】
(変形例4)
変形例4の推定器102は、「参加者xの特徴量はfである」という命題論理式P(x,f)が充足(参加者である)か、非充足(非参加者)かを判定するアルゴリズム(SATソルバ:SATisfiability Solver)である。例えば、図5に示したデータベース142に蓄積された情報の例では、会議1から「参加者αの特徴量はAである」という論理式が充足として求められ、会議1および会議2から「参加者βの特徴量はBである」という論理式が充足として求められ、会議3から「参加者γの特徴量はDである」という論理式が充足として求められる。したがって、推定器は、図6に示す会議4の情報を受け付けた時、命題論理式を満たす解のない特徴量Cを非参加者として判定する。
【0039】
(変形例5)
上述した様に、データベース142は、過去の参加者情報と顔画像または音声との対応を蓄積する。つまり、参加者情報と顔画像、または参加者情報と音声は、相関関係を有する状態となる。したがって、変形例5の推定器102は、第1参加者情報と顔画像との関係、または第1参加者情報と音声との関係を入力とし、センサ信号と第2参加者との対応を出力として訓練した訓練済のディープニューラルネットワークモデル(DNN)を用いて、参加者、非参加者を判定する。
【0040】
(変形例6)
変形例6に係る推定器102は、データベース142に蓄積されている会議のデータ数が少ない時にマスク処理をしない、というルールを有する。これにより、精度の低い出力の場合に、誤って参加者の顔画像または音声をマスクする可能性が低減される。
【0041】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【0042】
例えば、本発明のイベントは会議に限らない。イベントは、ライブの映像、音を録音、配信する場合等も含む。
【符号の説明】
【0043】
1 :音信号処理装置
11 :カメラ
12 :プロセッサ
14 :フラッシュメモリ
15 :RAM
16 :ユーザI/F
17 :スピーカ
18A :マイク
18B :マイク
18C :マイク
18D :マイク
18E :マイク
18F :マイク
19 :通信I/F
50 :音信号入力部
51 :音信号処理部
52 :出力部
70 :映像信号入力部
71 :映像信号処理部
101 :特徴量検出部
102 :推定器
141 :プログラム
142 :データベース
図1
図2
図3
図4
図5
図6
図7
図8
図9