(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-12
(54)【発明の名称】オーディオ会議のための自動ミュート及びミュート解除
(51)【国際特許分類】
H04N 7/15 20060101AFI20240905BHJP
【FI】
H04N7/15
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024513094
(86)(22)【出願日】2022-07-27
(85)【翻訳文提出日】2024-02-26
(86)【国際出願番号】 US2022074205
(87)【国際公開番号】W WO2023039318
(87)【国際公開日】2023-03-16
(32)【優先日】2021-09-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507364838
【氏名又は名称】クアルコム,インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100163522
【氏名又は名称】黒田 晋平
(72)【発明者】
【氏名】ウマ・メフタ
(72)【発明者】
【氏名】ヴィシュヌ・プリヤンカ・グジューラ
(72)【発明者】
【氏名】ラジェシュワー・クラパティ
(72)【発明者】
【氏名】ヴィカシュ・ガロディア
(72)【発明者】
【氏名】マラティ・ゴッタム
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA42
5C164VA06S
5C164VA09P
5C164VA11P
5C164VA51S
(57)【要約】
オーディオ会議を制御するための技術は、オーディオ会議の参加者からオーディオデータを受信することと、オーディオデータを分析して、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成することと、オーディオデータの分析に基づいて参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整することとを含む。マイクロフォンは、話者が参加者ではない、又はオーディオのコンテンツがオーディオ会議のコンテキスト外にあるという判定に基づいて、ミュートされ得る。
【特許請求の範囲】
【請求項1】
オーディオ会議を制御するように構成されている装置であって、
前記オーディオ会議の参加者からオーディオデータを受信するように構成されているメモリと、
前記メモリと通信している1つ以上のプロセッサとを備え、前記1つ以上のプロセッサが、
前記オーディオデータを分析して前記オーディオデータの話者又は前記オーディオデータのコンテキストのうちの1つ以上を判定し、前記オーディオデータの分析を生成し、
前記オーディオデータの前記分析に基づいて、前記参加者のマイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整する、ように構成されている、装置。
【請求項2】
前記オーディオデータを分析して前記オーディオデータの前記話者又は前記オーディオデータの前記コンテキストのうちの前記1つ以上を判定するために、前記1つ以上のプロセッサが、
1つ以上の人工知能技術を使用して前記オーディオデータを分析し、前記オーディオデータの前記分析を生成するように構成されている、請求項1に記載の装置。
【請求項3】
前記1つ以上の人工知能技術がニューラルネットワークを含む、請求項2に記載の装置。
【請求項4】
前記1つ以上の人工知能技術が自然言語処理を含む、請求項2に記載の装置。
【請求項5】
前記オーディオデータを分析して前記オーディオデータの前記話者を判定するために、前記1つ以上のプロセッサが、
前記参加者の声の登録バージョンに対して前記オーディオデータを分類して話者分類を決定し、
前記話者分類に基づいて、前記オーディオデータが前記参加者の前記声を表すかどうかを判定する、ように更に構成されている、請求項1に記載の装置。
【請求項6】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整するために、前記1つ以上のプロセッサが、
前記オーディオデータが前記参加者の前記声を表さないという判定に基づいて、前記参加者の前記マイクロフォンをミュートする、又は前記参加者の前記オーディオデータをミュートする、ように構成されている、請求項5に記載の装置。
【請求項7】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整するために、前記1つ以上のプロセッサが、
前記オーディオデータが前記参加者の前記声を表すという判定に基づいて、前記参加者の前記マイクロフォンをミュートしない、又は前記参加者の前記オーディオデータをミュートしない、ように構成されている、請求項5に記載の装置。
【請求項8】
前記1つ以上のプロセッサが、
前記参加者の前記声の前記登録バージョンを使用してニューラルネットワークを訓練し、
前記オーディオデータを分類するために、前記1つ以上のプロセッサが、前記ニューラルネットワークを使用して前記オーディオデータを分類するように構成されている、請求項5に記載の装置。
【請求項9】
前記オーディオデータを分析して前記オーディオデータの前記コンテキストを判定するために、前記1つ以上のプロセッサが、
訓練データに対して前記オーディオデータのコンテンツを分類してコンテキスト分類を決定し、
前記コンテキスト分類に基づいて、前記オーディオデータが前記オーディオ会議のコンテキストを表すかどうかを判定する、ように更に構成されている、請求項1に記載の装置。
【請求項10】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整するために、前記1つ以上のプロセッサが、
前記オーディオデータが前記オーディオ会議の前記コンテキストを表さないという判定に基づいて、前記参加者の前記マイクロフォンをミュートする、又は前記参加者の前記オーディオデータをミュートする、ように構成されている、請求項9に記載の装置。
【請求項11】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整するために、前記1つ以上のプロセッサが、
前記オーディオデータが前記オーディオ会議の前記コンテキストを表すという判定に基づいて、前記参加者の前記マイクロフォンをミュートしない、又は前記参加者の前記オーディオデータをミュートしない、ように構成されている、請求項9に記載の装置。
【請求項12】
前記1つ以上のプロセッサが、
前記訓練データを使用してニューラルネットワークを訓練し、ここで前記訓練データは前記オーディオ会議の前記コンテキストを示す文法を含み、
前記オーディオデータを分類するために、前記1つ以上のプロセッサが、前記ニューラルネットワークを使用して前記オーディオデータを分類するように構成されている、請求項9に記載の装置。
【請求項13】
前記オーディオデータを分析して前記オーディオデータの前記話者又は前記オーディオデータの前記コンテキストのうちの1つ以上を判定するために、前記1つ以上のプロセッサが、
前記参加者の声の登録バージョンに対して前記オーディオデータを分類して話者分類を決定し、
前記話者分類に基づいて、前記オーディオデータが前記参加者の前記声を表すかどうかを判定し、
訓練データに対して前記オーディオデータのコンテンツを分類してコンテキスト分類を決定し、
前記コンテキスト分類に基づいて、前記オーディオデータが前記オーディオ会議のコンテキストを表すかどうかを判定する、ように更に構成されている、請求項1に記載の装置。
【請求項14】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整するために、前記1つ以上のプロセッサが、
前記参加者の前記オーディオデータがミュートされていると判定し、
前記オーディオデータが前記参加者の前記声を表すという判定に基づいて、及び前記オーディオデータが前記オーディオ会議の前記コンテキストを表すという判定に基づいて、前記参加者の前記オーディオデータをミュート解除する、ように構成されている、請求項13に記載の装置。
【請求項15】
オーディオ会議を制御するための方法であって、
前記オーディオ会議の参加者からオーディオデータを受信することと、
前記オーディオデータを分析して前記オーディオデータの話者又は前記オーディオデータのコンテキストのうちの1つ以上を判定し、前記オーディオデータの分析を生成することと、
前記オーディオデータの前記分析に基づいて、前記参加者のマイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することと、
を含む、方法。
【請求項16】
前記オーディオデータを分析して前記オーディオデータの前記話者又は前記オーディオデータの前記コンテキストのうちの前記1つ以上を判定することが、
1つ以上の人工知能技術又は機械学習技術を使用して前記オーディオデータを分析し、前記オーディオデータの前記分析を生成することを含む、請求項15に記載の方法。
【請求項17】
前記1つ以上の人工知能技術又は機械学習技術がニューラルネットワークを含む、請求項16に記載の方法。
【請求項18】
前記1つ以上の人工知能技術又は機械学習技術が自然言語処理を含む、請求項16に記載の方法。
【請求項19】
前記オーディオデータを分析して前記オーディオデータの前記話者を判定することが、
前記参加者の声の登録バージョンに対して前記オーディオデータを分類して話者分類を決定することと、
前記話者分類に基づいて、前記オーディオデータが前記参加者の前記声を表すかどうかを判定することと、を含む、請求項15に記載の方法。
【請求項20】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することが、
前記オーディオデータが前記参加者の前記声を表さないという判定に基づいて、前記参加者の前記マイクロフォンをミュートすること、又は前記参加者の前記オーディオデータをミュートすることを含む、請求項19に記載の方法。
【請求項21】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することが、
前記オーディオデータが前記参加者の前記声を表すという判定に基づいて、前記参加者の前記マイクロフォンをミュートしないこと、又は前記参加者の前記オーディオデータをミュートしないことを含む、請求項19に記載の方法。
【請求項22】
前記参加者の前記声の前記登録バージョンを使用してニューラルネットワークを訓練することを更に含み、
前記オーディオデータを分類することが、前記ニューラルネットワークを使用して前記オーディオデータを分類することを含む、請求項19に記載の方法。
【請求項23】
前記オーディオデータを分析して前記オーディオデータの前記コンテキストを判定することが、
訓練データに対して前記オーディオデータのコンテンツを分類してコンテキスト分類を決定することと、
前記コンテキスト分類に基づいて、前記オーディオデータが前記オーディオ会議のコンテキストを表すかどうかを判定することと、を含む、請求項15に記載の方法。
【請求項24】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することが、
前記オーディオデータが前記オーディオ会議の前記コンテキストを表さないという判定に基づいて、前記参加者の前記マイクロフォンをミュートすること、又は前記参加者の前記オーディオデータをミュートすること、を含む、請求項23に記載の方法。
【請求項25】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することが、
前記オーディオデータが前記オーディオ会議の前記コンテキストを表すという判定に基づいて、前記参加者の前記マイクロフォンをミュートしないこと、又は前記参加者の前記オーディオデータをミュートしないこと、を含む、請求項23に記載の方法。
【請求項26】
前記訓練データを使用してニューラルネットワークを訓練することであって、前記訓練データが前記オーディオ会議の前記コンテキストを示す文法を含む、訓練することを更に含み、
前記オーディオデータを分類することが、前記ニューラルネットワークを使用して前記オーディオデータを分類することを含む、請求項23に記載の方法。
【請求項27】
前記オーディオデータを分析して前記オーディオデータの前記話者又は前記オーディオデータの前記コンテキストの1つ以上を判定することが、
前記参加者の声の登録バージョンに対して前記オーディオデータを分類して話者分類を決定することと、
前記話者分類に基づいて、前記オーディオデータが前記参加者の前記声を表すかどうかを判定することと、
訓練データに対して前記オーディオデータのコンテンツを分類してコンテキスト分類を決定することと、
前記コンテキスト分類に基づいて、前記オーディオデータが前記オーディオ会議のコンテキストを表すかどうかを判定することと、を含む、請求項15に記載の方法。
【請求項28】
前記オーディオデータの前記分析に基づいて、前記参加者の前記マイクロフォンを制御すること、又は前記参加者の前記オーディオデータを調整することが、
前記参加者の前記オーディオデータがミュートされていると判定することと、
前記オーディオデータが前記参加者の前記声を表すという判定に基づいて、及び前記オーディオデータが前記オーディオ会議の前記コンテキストを表すという判定に基づいて、前記参加者の前記オーディオデータをミュート解除することと、を含む、請求項27に記載の方法。
【請求項29】
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、実行されると、1つ以上のプロセッサに、
オーディオ会議の参加者からオーディオデータを受信させ、
前記オーディオデータを分析させて前記オーディオデータの話者又は前記オーディオデータのコンテキストのうちの1つ以上を判定させ、前記オーディオデータの分析を生成させ、
前記オーディオデータの前記分析に基づいて、前記参加者のマイクロフォンを制御させる、又は前記参加者の前記オーディオデータを調整させる、非一時的コンピュータ可読記憶媒体。
【請求項30】
オーディオ会議を制御するように構成されている装置であって、
前記オーディオ会議の参加者からオーディオデータを受信する手段と、
前記オーディオデータを分析して前記オーディオデータの話者又は前記オーディオデータのコンテキストのうちの1つ以上を判定し、前記オーディオデータの分析を生成する手段と、
前記オーディオデータの前記分析に基づいて、前記参加者のマイクロフォンを制御する、又は前記参加者の前記オーディオデータを調整する手段と、
を備える、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、その内容全体が参照により本明細書に組み込まれる、2021年09月7日に出願された米国特許出願第17/468,177号の利益を主張する。
【0002】
本開示は、オーディオ会議管理に関する。
【背景技術】
【0003】
ビデオ及びオーディオ会議は、個人用及びビジネス用の両方に使用される。ビデオ及びオーディオ会議アプリケーションは、2つ以上の遠隔地にいる複数の参加者間の会議のための有用なツールを提供する。そのような会議を使用して効率的な会議を行うことは、いくつかのシナリオでは困難であり得る。例えば、ビデオ及びオーディオ会議アプリケーションは、所与の会議について多数のユーザをサポートすることができる。多数の参加者を有する会議は、管理することが困難になる可能性があり、それは、特定の参加者が発話を停止したときに不明瞭になる可能性があり、多くの参加者が一度に発話する可能性があり、参加者のマイクロフォンがミュート解除されたままである場合、背景雑音が厄介になる可能性があるからである。
【発明の概要】
【0004】
本開示は、オーディオ会議における参加者のマイクロフォン及び/又はオーディオデータの自動ミュート及び/又はミュート解除のための技術について説明する。オーディオ会議及び仮想会議中に、不要なオーディオがオーディオ会議のすべての参加者に放送されるいくつかのシナリオが生じる可能性がある。そのようなシナリオは、参加者がコンテキストから離れて話していること、背景雑音、及び会議に参加していない他のローカルな人々の声が参加者のマイクロフォンによって拾われることを含み得る。そのような不要なオーディオは、会議の参加者に不便をもたらす可能性があり、話者を不快にする可能性もある。
【0005】
一例では、本開示は、オーディオ会議の参加者のマイクロフォン及び/又はオーディオデータを自動的にミュートするための技術について説明する。オーディオ会議が実行されているデバイスは、参加者のマイクロフォンによってキャプチャされたオーディオデータを分析し、オーディオデータが参加者の声を表すかどうかを判定し、及び/又はオーディオデータのコンテンツが会議のコンテキスト内にあるかどうかを判定するように構成され得る。デバイスは、機械学習技術又はニューラルネットワークなど、1つ以上の人工知能技術を使用してオーディオデータを分類し得る。オーディオデータが参加者の声と一致しないと分類された場合、デバイスは、参加者のマイクロフォン及び/又はオーディオデータを自動的にミュートすることができる。同様に、オーディオデータのコンテンツがオーディオ会議のコンテキストに一致しない(例えば、オーディオ会議のトピックに関連しない文法を含む)と分類された場合、デバイスは、参加者のマイクロフォン及び/又はオーディオデータを自動的にミュートすることができる。
【0006】
他の例では、本開示はまた、マイクロフォン及び/又はオーディオデータの自動ミュート解除のための技術について説明する。いくつかの事例では、参加者は、ミュートされたマイクロフォン又はオーディオデータを有し得るが、最初にマイクロフォン又はオーディオデータをミュート解除することなく話し始めることがある。オーディオ会議が実行されているデバイスは、参加者のマイクロフォンによってキャプチャされたオーディオデータを分析し、オーディオデータが参加者の声を表し、オーディオデータのコンテンツが会議のコンテキスト内にあることの両方を判定するように構成され得る。そうである場合、デバイスは、参加者のマイクロフォン又はオーディオデータを自動的にミュート解除することができる。本開示の技術によるマイクロフォン及び/又はオーディオデータの自動ミュート及びミュート解除は、オーディオ会議における不要なオーディオの量を制限し、そのようなオーディオ会議がより効率的に動作することを可能にし得る。更に、本開示の自動ミュート解除特徴は、参加者の発言を逃すこと、又は発言を繰り返す必要を回避することができる。
【0007】
一例では、本開示は、オーディオ会議を制御するように構成された装置であって、オーディオ会議の参加者からオーディオデータを受信するように構成されているメモリと、メモリと通信する1つ以上のプロセッサとを備える装置について説明する。1つ以上のプロセッサは、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成し、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するように構成されている。
【0008】
別の例では、本開示は、オーディオ会議を制御するための方法を説明し、方法は、オーディオ会議の参加者からオーディオデータを受信することと、オーディオデータを分析して、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成することと、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整することとを含む。
【0009】
別の例では、本開示は、命令を記憶する非一時的コンピュータ可読記憶媒体であって、命令が、実行されると、1つ以上のプロセッサに、オーディオ会議の参加者からオーディオデータを受信させ、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成させ、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御させる、又は参加者のオーディオデータを調整させる、非一時的コンピュータ可読記憶媒体を説明する。
【0010】
別の例では、本開示はオーディオ会議を制御するように構成された装置であって、オーディオ会議の参加者からオーディオデータを受信する手段と、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成する手段と、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整する手段と、を備える、装置を説明する。
【0011】
本開示の1つ以上の例の詳細が、添付の図面及び以下の説明に記載される。他の特徴、目的、及び利点が、説明、図面、及び特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0012】
【
図1】本開示の技術による、第1のデバイスと第2のデバイスとの間のテレビ電話(VT)セッションを示すブロック図である。
【
図2】マイクロフォン及び/又はオーディオデータを自動的にミュートするための技術を示す概念図である。
【
図3】マイクロフォン及び/又はオーディオデータを自動的にミュート解除するための技術を示す概念図である。
【
図4】
図1のデバイスをより詳細に示すブロック図である。
【
図5】マイクロフォン及び/又はオーディオデータをミュート及びミュート解除するための例示的な技術を示すフローチャートである。
【
図6】マイクロフォン及び/又はオーディオデータをミュート及びミュート解除するための別の例示的な技術を示すフローチャートである。
【発明を実施するための形態】
【0013】
本開示は、オーディオ会議における参加者のマイクロフォン又はオーディオデータの自動ミュート及び/又はミュート解除のための技術について説明する。一例では、本開示は、オーディオ会議の参加者のマイクロフォン又はオーディオデータを自動的にミュートするための技術について説明する。オーディオ会議が実行されているデバイスは、参加者のマイクロフォンによってキャプチャされたオーディオデータを分析し、オーディオデータが参加者の声を表すかどうかを判定し、及び/又はオーディオデータのコンテンツが会議のコンテキスト内にあるかどうかを判定するように構成され得る。デバイスは、ニューラルネットワークなど、1つ以上の人工知能又は機械学習技術を使用してオーディオデータを分類し得る。オーディオデータが参加者の声と一致しないと分類された場合、デバイスは、参加者のマイクロフォン又はオーディオデータを自動的にミュートすることができる。同様に、オーディオデータのコンテンツがオーディオ会議のコンテキストに一致しない(例えば、オーディオ会議のトピックに関連しない文法を含む)と分類された場合、デバイスは、参加者のマイクロフォン又はオーディオデータを自動的にミュートすることができる。
【0014】
他の例では、本開示はまた、マイクロフォン又はオーディオデータの自動ミュート解除のための技術について説明する。いくつかの事例では、参加者は、ミュートされたマイクロフォン又はオーディオデータを有し得るが、最初にマイクロフォン又はオーディオデータをミュート解除することなく話し始めることがある。オーディオ会議が実行されているデバイスは、参加者のマイクロフォンによってキャプチャされたオーディオデータを分析し、オーディオデータが参加者の声を表し、オーディオデータのコンテンツが会議のコンテキスト内にあることの両方を判定するように構成され得る。そうである場合、デバイスは、参加者のマイクロフォン又はオーディオデータを自動的にミュート解除することができる。本開示の技術によるマイクロフォン又はオーディオデータの自動ミュート及びミュート解除は、オーディオ会議における不要なオーディオの量を制限し、そのようなオーディオ会議がより効率的に動作することを可能にし得る。
【0015】
図1は、本開示の技術による、第1のデバイスと第2のデバイスとの間のオーディオ会議を示すブロック図である。いくつかの例では、
図1に示すオーディオ会議はビデオ会議であってもよい。
図1は、オーディオ会議に参加する2つのデバイスを示す。しかしながら、本開示の技術は、任意の数のデバイスとともに使用するために適用可能である。第1のデバイス12(デバイスA)は、カメラ及びディスプレイユニット14と、マイクロフォン及びスピーカユニット16と、オーディオ及びビデオ(A/V)処理ユニット18とを含む。第2のデバイス20(デバイスB)は、カメラ及びディスプレイユニット22と、マイクロフォン及びスピーカユニット24と、オーディオ及びビデオ(A/V)処理ユニット26とを含む。第1のデバイス12は、ネットワーク28を介して第2のデバイス20と通信する。
【0016】
図1の例では、第1のデバイス12は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、Wi-Fi対応テレビ、ビデオ会議デバイス、又はオーディオ及び/又はビデオデータを送信することができる任意の他のデバイスとして構成されてもよい。同様に、第2のデバイス20は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、Wi-Fi対応テレビ、ビデオ会議デバイス、又はオーディオ及び/又はビデオデータを受信し、ユーザ入力データを受信することができる任意の他のデバイスとして構成されてもよい。
【0017】
カメラ及びディスプレイユニット14並びにカメラ及びディスプレイユニット22は各々、静止画像又はビデオ画像をキャプチャするためのカメラと、第1のデバイス12又は第2のデバイス20のユーザにビデオデータを提示するためのディスプレイとを含み得る。ディスプレイは、液晶ディスプレイ(LCD)、プラズマディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、又は別のタイプのディスプレイデバイスのような、様々なビデオ出力デバイスのいずれも備えることができる。これら又は他の例では、ディスプレイデバイスは、発光型ディスプレイ又は透過型ディスプレイであってもよい。
【0018】
マイクロフォン及びスピーカユニット16並びにマイクロフォン及びスピーカユニット24は各々、音をキャプチャするためのマイクロフォンと、第1のデバイス12又は第2のデバイス20のユーザに音を提示するためのスピーカとを含み得る。スピーカは、ヘッドフォン、単一スピーカシステム、マルチスピーカシステム、又はサラウンド音響システムのような様々なオーディオ出力デバイスのいずれも備えることができる。
【0019】
A/V処理ユニット18及びA/V処理ユニット26は、オーディオ及び/又はビデオデータを処理することに関与するいくつかのユニットを含み得る。A/V処理ユニット18及びA/V処理ユニット26の各々は、1つ以上のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリートロジック、ハードウェア、又はそれらの任意の組み合わせとして実装されてもよく、ソフトウェア及び/又はファームウェアを実行するように構成されてもよい。A/V処理ユニット18及びA/V処理ユニット26の各々は、1つ以上のビデオエンコーダ又はビデオデコーダを含むことができ、それらのいずれかは、結合されたエンコーダ/デコーダ(CODEC)の一部として統合することができる。
【0020】
ネットワーク28は、第1のデバイス12から第2のデバイス20にオーディオデータ又はビデオデータを送信するための、あらゆる適した通信媒体又は異なる通信媒体の集合を概して表す。ネットワーク28は、無線周波数(RF)スペクトル又は1つ以上の物理伝送線など、任意のワイヤレス又はワイヤード通信媒体、あるいはワイヤレス媒体とワイヤード媒体との任意の組み合わせ、WiFi、衛星、同軸ケーブル、電力線、又はそれらの任意の組み合わせを備え得る。いくつかの実施例では、ネットワーク28は、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネットなどのグローバルネットワークなどのパケットベースネットワークの一部を形成することができる。したがって、第1のデバイス12及び第2のデバイス20は、IEEE802.11ファミリの規格のうちの規格のような通信プロトコルを使用して、通信チャネルを介して通信することができる。
【0021】
図1の例は、ネットワーク28を介する双方向オーディオ会議セッションを一般的に示す。例えば、第1のデバイス12は、カメラ及びディスプレイユニット14並びにマイクロフォン及びスピーカユニット16を使用して、オーディオ及び/又はビデオをキャプチャすることを担当するローカルデバイスであり得る。A/V処理ユニット18は、オーディオ及び/又はビデオデータを符号化する、又は場合によっては圧縮し得る。A/V処理ユニット18はまた、PSネットワーク28を介して送信するためにデータをパケット化する。第2のデバイス20において、A/V処理ユニット26は、受信されたパケットを復調し、デジッタし、復号し、A/V同期し、及び/又は後処理し得る。A/V処理ユニット26は、次いで、第2のデバイス20のユーザへの再生のために、処理されたデータをカメラ及びディスプレイユニット22並びに/又はマイクロフォン及びスピーカユニット24に送信し得る。
【0022】
本開示の態様によれば、以下でより詳細に説明されるように、第1のデバイス12は、オーディオ会議の参加者からオーディオデータを(例えば、マイクロフォン16から)受信するように構成され得る。第1のデバイス12は、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成し、オーディオデータの分析に基づいて、マイクロフォン16及び/又は参加者のオーディオデータを制御するように更に構成されてもよい。例えば、オーディオデータの分析が、オーディオデータが参加者の声と一致しない、及び/又はオーディオデータのコンテンツが会議とのコンテキスト外である(例えば、オーディオデータのコンテンツがオーディオ会議のコンテキストに関連付けられていない文法を使用する)と判定した場合、デバイス12は、マイクロフォン16を自動的にミュートし得る。同様に、第1のデバイス12は、オーディオの分析が、オーディオデータが参加者の声に一致すること、及び/又はオーディオ会議のコンテキストに一致することを示す場合、マイクロフォン16を自動的にミュート解除するように構成され得る。
【0023】
本開示の技術は、マイクロフォンを制御すること(例えば、ミュートすること及び/又はミュート解除すること)を指し得る。いくつかの例では、マイクロフォンをミュートすることは、マイクロフォン16がもはやオーディオデータをキャプチャ及び生成しないようにマイクロフォン16を無効にすることを指し得る。他の例では、マイクロフォンをミュートすることは、オーディオデータがオーディオ会議の他の参加者にもはや聞こえないように、特定のマイクロフォンによって生成されたオーディオデータを聞こえないように、特定のマイクロフォンによって生成されたオーディオデータをミュートすること、消音すること、無効化すること、音量を(例えば、0に)下げること、及び/又は(例えば、オーディオストリームから)除去することを指し得る。この例では、「ミュートされた」マイクロフォンは依然として動作可能であり、マイクロフォン及び/又はオーディオデータをミュート解除するかどうか、及びいつミュート解除するかを決定するための継続的な分析など、他の目的のために使用され得るオーディオデータをキャプチャ及び生成し続けることができる。このコンテキストでは、マイクロフォンを制御することは、オーディオデータを調整することとも呼ばれ得、ここで、オーディオデータを調整することは、オーディオデータをミュート解除すること又はミュート解除することを含み得る。
【0024】
本開示の技術について、第1のデバイス12及びA/V処理ユニット18を参照しながら説明する。しかしながら、デバイス20又はオーディオ会議に参加している任意の別のデバイスが本開示の技術を適用し得ることを理解されたい。更に、いくつかの例では、本開示の技術は、1つ以上のリモートデバイスのマイクロフォンを制御するように構成された単一の集中型デバイス上で行われ得る。
【0025】
図2は、マイクロフォン及び/又はオーディオデータを自動的にミュートするための技術を示す概念図である。
図2は、マイクロフォン(例えば、
図1のマイクロフォン16)がオンである参加者204を有するオーディオ会議200(又は任意のタイプの仮想会議)を示す。この例では、第1のデバイス12は、参加者204のマイクロフォンから受信されたオーディオデータが異なるシナリオのためにミュートされるべきかどうかを判定するように構成されたスピーチ分類アルゴリズム210を実行するように構成され得る。
【0026】
シナリオ1では、スピーチ分類アルゴリズム210は、オーディオデータのコンテンツがオーディオ会議200のコンテキストのコンテキスト外であることを決定するように構成され得る。例えば、参加者204は、会議のコンテキストとは異なるコンテキストにある単語、句、又は他の文法を使用している可能性がある。コンテキストにおいて、オーディオデータは、コンテキスト内の単語のリストに対して所定のヒット率を超える単語を含むオーディオデータであってもよい。シナリオ2では、オーディオデータは、参加者204(例えば、アクティブな参加者)が話していない間に話している、参加者204以外の背景参加者を含む。シナリオ3では、参加者204がアクティブなマイクロフォンを有している間に、オーディオデータは背景雑音を含む。シナリオの各々において、第1のデバイス12は、参加者204のマイクロフォンを自動的にミュートするように構成され得る。
【0027】
図3は、マイクロフォンを自動的にミュート解除するための技術を示す概念図である。
図2と同様に、
図3は、マイクロフォン(例えば、
図1のマイクロフォン16)がオフである参加者304を有するオーディオ会議300(又は任意のタイプの仮想会議)を示す。このコンテキストでは、マイクロフォンが「オフ」であることは、マイクロフォンによってキャプチャされたオーディオデータがブロードキャストされない、又はオーディオ会議の他の参加者に聞こえるようにされないが、マイクロフォンがスピーチ分類アルゴリズム310による分析のためにオーディオデータをキャプチャし続けることを示す。この例では、第1のデバイス12は、参加者204のマイクロフォンから受信されたオーディオデータが異なるシナリオのためにミュート解除されるべきかどうかを判定するように構成されたスピーチ分類アルゴリズム310を実行するように構成され得る。
【0028】
シナリオ1では、スピーチ分類アルゴリズム310は、オーディオデータのコンテンツがオーディオ会議200のコンテキストのコンテキスト内であることを決定するように構成され得る。例えば、参加者204は、会議のコンテキストと同じコンテキストにある単語、句、又は他の文法を使用している可能性がある。シナリオ2では、話していた背景参加者を以前に含んでいたオーディオデータは、背景参加者からのオーディオをもはや含まない。すなわち、以前に話していた背景参加者は話しを停止しており、正しい参加者が現在話している。シナリオ3では、以前に背景雑音を含んでいたオーディオデータは、今は背景雑音を含まない。シナリオの各々において、第1のデバイス12は、参加者304のマイクロフォンを自動的にミュート解除するように構成され得る。
【0029】
図2及び
図3のシナリオは、マイクロフォン及び/又はオーディオデータがミュートされてもミュート解除されてもよいシナリオの例であることを意図しており、網羅的であることを意図していない。一般に、第1のデバイス12は、オーディオデータが話者の声を表すかどうかを判定するために、アクティブな参加者の声(例えば、話者識別)に対してオーディオデータを分類するように構成され得る。本開示の話者識別技術は、オーディオデータがアクティブな参加者以外の話者を表す場合、及び/又はオーディオデータが雑音(例えば、閾値デシベルレベルを上回る雑音)を表す場合、第1のデバイス12にマイクロフォンをミュートさせ得る。第1のデバイス12は、オーディオデータのコンテンツがコンテキスト外であるかどうかを判定するために、オーディオ会議の予想されるコンテキストに対してオーディオデータを分類するように更に構成され得る。本開示では、オーディオ会議のコンテキストは、オーディオ会議のトピック及び/又はコンテキストを示し得る単語、句、用語、文法、言語、又は他のデータの予想されるセットを含み得る。
【0030】
本開示の一例では、スピーチ分類アルゴリズム210及び310は、1つ以上の人工知能及び/又は機械学習アルゴリズムを使用して実装され得る。例示的な人工知能及び/又は機械学習アルゴリズムは、深層学習システム、ニューラルネットワーク、及び自然言語処理の使用を含む他のタイプの予測分析システムを含み得る。
【0031】
深層ニューラルネットワーク(DNN)を含む人工ニューラルネットワーク(ANN)は、分類ツールとして非常に有望であることが示されている。DNNは、入力層、出力層、及び入力層と出力層との間の1つ以上の隠れ層を含む。ANN及びDNNは、プーリング層などの1つ以上の他のタイプの層を含むこともできる。
【0032】
各層は、しばしば単に「ニューロン」と呼ばれる人工ニューロンのセットを含み得る。入力層の各ニューロンは、入力ベクトルから入力値を受け取る。入力層内のニューロンの出力は、ANN内の次の層への入力として提供される。入力層の後の層の各ニューロンは、ニューロンへの入力値を生成するために、前の層の1つ以上のニューロンの出力に伝搬関数を適用し得る。次いで、ニューロンは、活性化値を計算するために、活性化関数を入力に適用し得る。次いで、ニューロンは、ニューロンのための出力値を生成するために、出力関数を活性化値に適用し得る。ANNの出力ベクトルは、ANNの出力層の出力値を含む。
【0033】
本開示の例では、ANNの出力値は、話者識別(例えば、話者分類)に関連する1つ以上の分類と、オーディオ会議(例えば、コンテキスト分類)のコンテキストに関連する1つ以上の分類とを含み得る。上述したようにスピーチ分類アルゴリズム210及び310は、オーディオデータを、アクティブな参加者に属するものとして、又はアクティブな参加者に属さないものとして分類するように構成されてもよい。例えば、オーディオデータは、別の人の声を表すことがあり、又は雑音を表すことがある。更に、スピーチ分類アルゴリズム210及び310は、オーディオデータのコンテンツを、オーディオ会議のコンテキスト内又はコンテキスト外のいずれかとして分類するように構成され得る。第1のデバイス12は、1つ以上の訓練データセットを使用してスピーチ分類アルゴリズム210及び310を実行するニューラルネットワークを訓練するように構成され得る。一例では、訓練データセットは、オーディオ会議のトピック及び/又はコンテキストを示し得る単語、句、用語、文法、言語、又は他のデータの予想されるセットを含み得る。他の例では、訓練データセットは、参加者の声の登録バージョンを含み得る。
【0034】
それぞれの訓練データセットについて、それぞれの訓練データセットの訓練入力ベクトルは、複数の入力要素の各要素についての値を含む。それぞれの訓練データセットについて、それぞれの訓練データセットの目標出力ベクトルは、複数の出力要素の各要素についての値を含む。この例では、第1のデバイス12は、話者分類とコンテキスト分類の両方を実行するようにニューラルネットワークを訓練するために、複数の訓練データセットを使用し得る。
【0035】
この例では、コンピューティングシステムは、参加者のマイクロフォン(例えば、
図1のマイクロフォン16)から受信されたオーディオデータに対応する現在の入力ベクトルを取得し得る。第1のデバイス12は、現在の出力ベクトルを生成するために、現在の入力ベクトルにDNNを適用することができる。第1のデバイス12は、次いで、現在の出力ベクトルに基づいて、受信されたオーディオデータの話者分類及び/又はコンテキスト分類を決定し得る。次いで、第1のデバイス12は、出力分類に基づいてマイクロフォンを制御し得る。一般に、第1のデバイス12は、オーディオ会議の参加者からオーディオデータを受信し、オーディオデータを分析して、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を(例えば、ニューラルネットワークを使用して)判定し、オーディオデータの分析を生成し、オーディオデータの分析に基づいてマイクロフォンを制御するか、及び/又は参加者のオーディオデータを調整するように構成されてもよい。
【0036】
図4は、
図1のデバイスを更に詳細に示すブロック図である。特に、
図4は、A/V処理ユニット18の1つの例示的な実装形態を示す。A/V処理ユニット18は、(例えば、
図1のマイクロフォン16から)オーディオデータ400を受信するように構成され得る。A/V処理ユニット18は、オーディオデータをメモリ406に記憶し得る。スピーチ分類ユニット410は、メモリ406に記憶されたオーディオデータを分析するように構成され得る。いくつかの例では、スピーチ分類ユニット410は、上記で説明した人工知能及び/又は機械学習技術のうちの1つ以上を使用するように構成され得る。例えば、スピーチ分類ユニット410は、
図2及び
図3を参照しながら上記で説明したスピーチ分類アルゴリズムを実行するために、ニューラルネットワークを実装するように構成され得る。いくつかの例では、A/V処理ユニット18は、マイクロフォンを有するデバイスにとってローカルでなくてもよいが、リモートに位置するクラウドデバイスであってもよい。
【0037】
図4の例では、スピーチ分類ユニット410は、話者識別ユニット412及びコンテキスト識別ユニット414の両方を含む。話者識別ユニット412は、上記で説明した話者分類を実行するように構成され得る。コンテキスト識別ユニット414は、説明されたコンテキスト分類を実行するように構成され得る。
図4は、話者識別ユニット412及びコンテキスト識別ユニット414を、別個のニューラルネットワークを実行する別個のユニットとして示す。他の例では、話者識別ユニット412及びコンテキスト識別ユニット414は、複数の出力を有する単一のニューラルネットワークにおいて組み合わされ得る。
【0038】
スピーチ分類ユニット410は、声登録データ404を使用して、話者識別ユニット412によって実行されるニューラルネットワークを訓練するように構成され得る。声登録データ404は、オーディオ会議の特定の参加者及び/又は第1のデバイス12のユーザの声のオーディオデータのサンプルであってもよい。話者識別ユニット412は、オーディオデータが登録された参加者の声を表すかどうかを判定するために、オーディオデータ400を分析するように構成され得る。例えば、話者識別ユニット412は、話者分類を決定するために、声登録データ404に対してオーディオデータ400を分類し得る。一例では、話者分類は、オーディオデータが参加者の声を表すか否かを示し得る。
【0039】
スピーチ分類ユニット410は、話者分類をマイクロフォン制御ユニット420に送り得る。マイクロフォン制御ユニット420は、話者分類に基づいて、オーディオデータ400が参加者の声を表すかどうかを判定するように構成され得る。マイクロフォン制御ユニット420は、オーディオデータが参加者の声を表さないという判定に基づいて、参加者のマイクロフォンをミュートするように構成され得る。他の例では、マイクロフォン制御ユニット420は、オーディオデータが参加者の声を表さないという判定に基づいて、参加者のオーディオデータをミュートするように構成され得る。マイクロフォン制御ユニット420は、オーディオデータが参加者の声を表すという判定に基づいて、参加者のマイクロフォン及び/又はオーディオデータをミュートしないように構成され得る。マイクロフォン制御ユニット420は、マイクロフォン/オーディオデータがミュートされているかどうかをユーザインタフェース制御ユニット430に通知し得る。そうである場合、ユーザインタフェース制御ユニットは、UI通知をユーザに送信し得る。UI通知は、視覚、オーディオ、及び/又は触覚通知であってもよい。いくつかの実施例では、参加者は、ユーザインタフェースとの相互作用を通して、自動ミュート/ミュート解除制御をオーバーライドすることが可能であってもよい。
【0040】
スピーチ分類ユニット410は、他の訓練データ402を使用して、コンテキスト識別ユニット414によって実行されるニューラルネットワークを訓練するように更に構成され得る。他の訓練データ402は、オーディオ会議のトピック及び/又はコンテキストを示し得る単語、句、用語、文法、言語、又は他のデータの予想されるセットであり得る。コンテキスト識別ユニット414は、オーディオデータのコンテンツがオーディオ会議のコンテキストを表すかどうかを判定するために、オーディオデータ400を分析するように構成され得る。この点に関して、オーディオデータのコンテンツは、オーディオデータ400内に含まれる実際の単語、句、用語、言語などであってもよい。一例では、コンテキスト識別ユニット414は、オーディオデータ400のコンテンツを決定するために自然言語処理技術を使用し得る。コンテキスト識別ユニット414は、コンテキスト分類を決定するために、オーディオデータ400を他の訓練データ402に対して分類し得る。一例では、コンテキスト分類は、オーディオデータがオーディオ会議のコンテキストを表すか否かを示し得る。
【0041】
スピーチ分類ユニット410は、コンテキスト分類をマイクロフォン制御ユニット420に送り得る。マイクロフォン制御ユニット420は、コンテキスト分類に基づいて、オーディオデータ400がオーディオ会議のコンテキストを表すかどうかを判定するように構成され得る。マイクロフォン制御ユニット420は、オーディオデータがオーディオ会議のコンテキストを表さないという判定に基づいて、参加者のマイクロフォン及び/又はオーディオデータをミュートするように構成され得る。マイクロフォン制御ユニット420は、オーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のマイクロフォン及び/又はオーディオデータをミュートしないように構成され得る。マイクロフォン制御ユニット420は、マイクロフォンがミュートされているかどうかをユーザインタフェース制御ユニット430に通知し得る。そうである場合、ユーザインタフェース制御ユニットは、UI通知をユーザに送信し得る。UI通知は、視覚、オーディオ、及び/又は触覚通知であってもよい。
【0042】
いくつかの例では、スピーチ分類ユニット410は、他の訓練データ402を収集するために、オーディオ会議の1人以上の参加者からオーディオデータを受信するように構成され得る。次いで、スピーチ分類ユニット410は、更新されたデータに基づいて、コンテキスト識別ユニット414によって実行されるニューラルネットワークを周期的に再訓練し得る。このようにして、コンテキスト識別ユニット414によって生成されるコンテキスト分類の精度を改善することができる。
【0043】
マイクロフォン又はオーディオデータを自動的にミュートすることに加えて、本開示はまた、A/V処理ユニット18が、前にミュートされたマイクロフォンからのオーディオデータを自動的にミュート解除するように構成され得る特徴について説明する。この例では、上記で説明したように、前に「ミュートされた」マイクロフォンは動作し続け、ミュートされたマイクロフォンによってキャプチャされたオーディオデータは、オーディオ会議の他の参加者のために消音される。一例では、マイクロフォン制御ユニット420は参加者のオーディオデータがミュートされていると判定し、オーディオデータ400が参加者の声を表すという判定に基づいて、及び/又はオーディオデータ400がオーディオ会議のコンテキストを表すという判定に基づいて、参加者のオーディオデータをミュート解除するように構成され得る。
【0044】
本開示の一例では、本開示のスピーチ分類ユニット410並びに自動ミュート及びミュート解除特徴の使用は、オン又はオフにされ得るユーザ選択可能特徴として構成され得る。
【0045】
図5は、マイクロフォンをミュート及びミュート解除するための例示的な技術を示すフローチャートである。上記で説明したように、マイクロフォンをミュート解除及びミュートすることはまた、概して、マイクロフォンが動作可能なままである(例えば、ミュートされたときに、オーディオデータを依然としてキャプチャ及び生成する)間に、オーディオデータがミュートされるか又はミュート解除されるように、オーディオデータを調整することを指し得る。
図5の技術は、A/V処理ユニット18を含む、デバイス12の1つ以上の構造的構成要素によって実行されてもよい。
図5の例では、話者分類はコンテキスト分類の前に実行される。他の例では、この順序は逆であってもよい。
【0046】
最初に、A/V処理ユニット18は、任意選択で、オーディオ会議の参加者の声を登録することができる(500)。上記で説明したように、A/V処理ユニット18は、登録された声をニューラルネットワークのための訓練データセットとして使用し得る。A/V処理ユニット18は、オーディオ会議を開始し(502)、参加者のマイクロフォンからオーディオデータを収集する(504)ように構成され得る。
【0047】
A/V処理ユニット18は、次いで、マイクロフォンがミュートされているかどうかを判定し得る(506)。506において「いいえ」である場合、A/V処理ユニット18は、オーディオデータを分析するように構成される(508)。A/V処理ユニット18は、上記で説明した人工知能技術を使用してオーディオデータを分析し得る。A/V処理ユニット18は、次いで、オーディオデータが参加者の登録された声を表すかどうかを判定し得る(510)。510において「いいえ」である場合、A/V処理ユニット18は、次いで、マイクロフォンをミュートし(512)、オーディオデータを収集することに戻り得る(504)。
【0048】
510において「はい」の場合、A/V処理ユニット18は、次いで、オーディオデータコンテンツがコンテキスト内にあるかどうかを判定し得る(514)。514において「いいえ」である場合、A/V処理ユニット18は、マイクロフォンをミュートし(516)、オーディオデータを収集することに戻り得る(504)。514において「はい」の場合、A/V処理ユニット18は、オーディオデータを収集することに戻り得る(504)。
【0049】
506に戻ると、マイクロフォンが現在ミュートされている場合、A/V処理ユニット18は依然として、オーディオデータを分析するように構成され得る(518)。この分岐では、A/V処理ユニット18は、オーディオデータが参加者の登録された声を表すものであり、かつオーディオ会議のコンテキスト内にあるかどうかを判定することができる(520)。520において「はい」の場合、A/V処理ユニット18は、マイクロフォンのミュート解除し(522)、次いで、オーディオデータを収集することに戻り得る(504)。520において「いいえ」である場合、A/V処理ユニット18は、オーディオデータを収集することに戻り得る(504)。
【0050】
図6は、マイクロフォンをミュート及びミュート解除するための別の例示的な技術を示すフローチャートである。
図6の技術は、A/V処理ユニット18を含む、デバイス12の1つ以上の構造的構成要素によって実行されてもよい。いくつかの例では、
図6の技術は、マイクロフォンを有するデバイスとは別個に位置するリモートデバイス(例えば、クラウドサーバ)によって実行され得る。
【0051】
本開示の一例では、A/V処理ユニット18は、オーディオ会議の参加者からのオーディオデータを受信するように構成され得る(600)。A/V処理ユニット18は、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を決定するためにオーディオデータを分析して、オーディオデータの分析を生成し(610)、オーディオデータの分析に基づいて、マイクロフォンを制御する、又は参加者のオーディオデータを調整する(620)ように更に構成され得る。
【0052】
本開示の一例では、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定するためにオーディオデータを分析するために、A/V処理ユニット18は、1つ以上の人工知能技術又は機械学習技術を使用してオーディオデータを分析するように構成される。一例では、1つ以上の人工知能又は機械学習技術は、ニューラルネットワークを含む。別の例では、1つ以上の人工知能又は機械学習技術は、自然言語処理を含む。
【0053】
本開示のいくつかの例は、マイクロフォン又はオーディオデータの自動ミュートに関する。一例では、オーディオデータの話者を判定するためにオーディオデータを分析するために、A/V処理ユニット18は、話者分類を決定するために参加者の声の登録バージョンに対してオーディオデータを分類するように構成される。一例では、参加者の声の登録バージョンは、ニューラルネットワークのための訓練データとして使用される。A/V処理ユニット18は、話者分類に基づいて、オーディオデータが参加者の声を表すかどうかを判定するように更に構成され得る。
【0054】
一例では、オーディオデータの分析に基づいてマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、A/V処理ユニット18は、オーディオデータが参加者の声を表さないという判定に基づいて、マイクロフォンをミュートする、又は参加者のオーディオデータをミュートするように構成される。別の例では、A/V処理ユニット18は、オーディオデータが参加者の声を表すという判定に基づいて、マイクロフォンをミュートしない、又は参加者のオーディオデータをミュートしないように構成されている。
【0055】
別の例では、オーディオデータのコンテキストを判定するためにオーディオデータを分析するために、A/V処理ユニット18は、コンテキスト分類を決定するために訓練データに対してオーディオデータのコンテンツを分類し、コンテキスト分類に基づいてオーディオデータがオーディオ会議のコンテキストを表すかどうかを判定するように構成される。一例では、オーディオデータの分析に基づいてマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、A/V処理ユニット18は、オーディオ会議のコンテキストを表さないという判定に基づいて、マイクロフォンをミュートする、又は参加者のオーディオデータをミュートするように構成される。別の例ではA/V処理ユニット18は、オーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、マイクロフォンをミュートしない、又は参加者のオーディオデータをミュートしないように構成される。
【0056】
A/V処理ユニット18は、参加者の登録された声及び/又はオーディオ会議のコンテキストを示す文法を含む訓練データを使用して、ニューラルネットワークを訓練するように構成され得る。A/V処理ユニット18は、次いで、訓練されたニューラルネットワークを使用して、話者識別及び/又はコンテキストのためにオーディオデータを分類することができる。
【0057】
本開示のいくつかの例は、マイクロフォン又はオーディオデータの自動ミュート解除に関する。一例では、オーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定するためにオーディオデータを分析するために、A/V処理ユニット18は、話者分類を決定するために参加者の声の登録バージョンに対してオーディオデータを分類し、話者分類に基づいてオーディオデータが参加者の声を表すかどうかを判定するように構成される。他の例では、A/V処理ユニット18は、コンテキスト分類を決定するために訓練データに対してオーディオデータのコンテンツを分類し、コンテキスト分類に基づいてオーディオデータがオーディオ会議のコンテキストを表すかどうかを判定するように構成され得る。他の例では、A/V処理ユニット18は、話者分類とコンテンツ分類の両方を決定するように構成され得る。
【0058】
A/V処理ユニット18は、参加者のオーディオデータがミュートされていると判定し、オーディオデータが参加者の声を表すという判定に基づいて、及び/又はオーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のオーディオデータをミュート解除するように更に構成され得る。
【0059】
本開示のデバイス、方法、及び技術の他の態様が以下で説明される。
【0060】
態様1-オーディオ会議を制御するように構成されている装置であって、オーディオ会議の参加者からオーディオデータを受信するように構成されているメモリと、メモリと通信している1つ以上のプロセッサとを備え、1つ以上のプロセッサが、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成し、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整する、ように構成されている、装置。
【0061】
態様2-オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストの1つ以上を判定するために、1つ以上のプロセッサが、1つ以上の人工知能技術又は機械学習技術を使用してオーディオデータを分析し、オーディオデータの分析を生成するように構成されている、態様1に記載の装置。
【0062】
態様3-1つ以上の人工知能又は機械学習技術が、ニューラルネットワークを含む、態様2に記載の装置。
【0063】
態様4-1つ以上の人工知能又は機械学習技術は自然言語処理を含む、態様2に記載の装置。
【0064】
態様5-オーディオデータを分析してオーディオデータの話者を判定するために、1つ以上のプロセッサが、参加者の声の登録バージョンに対してオーディオデータを分類して話者分類を決定し、話者分類に基づいて、オーディオデータが参加者の声を表すかどうかを判定する、ように更に構成されている、態様1から4のいずれか1つに記載の装置。
【0065】
態様6-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、1つ以上のプロセッサが、オーディオデータが参加者の声を表さないという判定に基づいて、参加者のマイクロフォンをミュートする、又は参加者のオーディオデータをミュートする、ように構成されている、態様5に記載の装置。
【0066】
態様7-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、1つ以上のプロセッサが、オーディオデータが参加者の声を表すという判定に基づいて、参加者のマイクロフォンをミュートしない、又は参加者のオーディオデータをミュートしない、ように構成されている、態様5に記載の装置。
【0067】
態様8-1つ以上のプロセッサが、参加者の声の登録バージョンを使用してニューラルネットワークを訓練し、オーディオデータを分類するために、1つ以上のプロセッサが、ニューラルネットワークを使用してオーディオデータを分類するように構成されている、態様5に記載の装置。
【0068】
態様9-オーディオデータを分析してオーディオデータのコンテキストを判定するために、1つ以上のプロセッサが、訓練データに対してオーディオデータのコンテンツを分類してコンテキスト分類を決定し、コンテキスト分類に基づいて、オーディオデータがオーディオ会議のコンテキストを表すかどうかを判定する、ように更に構成されている、態様1から8のいずれか1つに記載の装置。
【0069】
態様10-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、1つ以上のプロセッサが、オーディオデータがオーディオ会議のコンテキストを表さないという判定に基づいて、参加者のマイクロフォンをミュートする、又は参加者のオーディオデータをミュートするように構成されている、態様9に記載の装置。
【0070】
態様11-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、1つ以上のプロセッサが、オーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のマイクロフォンをミュートしない、又は参加者のオーディオデータをミュートしない、ように構成されている、態様9に記載の装置。
【0071】
態様12-1つ以上のプロセッサが、訓練データであって、オーディオ会議のコンテキストを示す文法を含む訓練データを使用してニューラルネットワークを訓練し、オーディオデータを分類するために、1つ以上のプロセッサが、ニューラルネットワークを使用してオーディオデータを分類する、ように構成されている、態様9に記載の装置。
【0072】
態様13-オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定するために、1つ以上のプロセッサが、参加者の声の登録バージョンに対してオーディオデータを分類して話者分類を決定し、話者分類に基づいて、オーディオデータが参加者の声を表すかどうかを判定し、訓練データに対してオーディオデータのコンテンツを分類してコンテキスト分類を決定し、コンテキスト分類に基づいてオーディオデータがオーディオ会議のコンテキストを表すかどうかを判定するように更に構成されている、態様1から12のいずれか1つに記載の装置。
【0073】
態様14-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整するために、1つ以上のプロセッサが、参加者のオーディオデータがミュートされていると判定し、オーディオデータが参加者の声を表すという判定に基づいて、及びオーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のオーディオデータをミュート解除する、ように構成されている、態様13に記載の装置。
【0074】
態様15-オーディオ会議を制御するための方法であって、オーディオ会議の参加者からオーディオデータを受信することと、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成することと、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することと、を含む、方法。
【0075】
態様16-オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストの1つ以上を判定することが、1つ以上の人工知能技術又は機械学習技術を使用してオーディオデータを分析し、オーディオデータの分析を生成することを含む、態様15に記載の方法。
【0076】
態様17-1つ以上の人工知能技術又は機械学習技術が、ニューラルネットワークを含む、態様16に記載の方法。
【0077】
態様18-1つ以上の人工知能技術又は機械学習技術は自然言語処理を含む、態様16に記載の方法。
【0078】
態様19-オーディオデータを分析してオーディオデータの話者を判定することが、参加者の声の登録バージョンに対してオーディオデータを分類して話者分類を決定することと、話者分類に基づいて、オーディオデータが参加者の声を表すかどうかを判定することと、を含む、態様15から18のいずれか1つに記載の方法。
【0079】
態様20-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することが、オーディオデータが参加者の声を表さないという判定に基づいて、参加者のマイクロフォンをミュートすること、又は参加者のオーディオデータをミュートすることを含む、態様19に記載の方法。
【0080】
態様21-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することが、オーディオデータが参加者の声を表すという判定に基づいて、参加者のマイクロフォンをミュートしないこと、又は参加者のオーディオデータをミュートしないことを含む、態様19に記載の方法。
【0081】
態様22-参加者の声の登録バージョンを使用してニューラルネットワークを訓練することを更に含み、オーディオデータを分類することが、ニューラルネットワークを使用してオーディオデータを分類することを含む、態様19に記載の方法。
【0082】
態様23-オーディオデータを分析してオーディオデータのコンテキストを判定することが、訓練データに対してオーディオデータのコンテンツを分類してコンテキスト分類を決定することと、コンテキスト分類に基づいて、オーディオデータがオーディオ会議のコンテキストを表すかどうかを判定することと、を含む、態様15から22のいずれか1つに記載の方法。
【0083】
態様24-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することが、オーディオデータがオーディオ会議のコンテキストを表さないという判定に基づいて、参加者のマイクロフォンをミュートすること、又は参加者のオーディオデータをミュートすること、を含む、態様23に記載の方法。
【0084】
態様25-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することが、オーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のマイクロフォンをミュートしないこと、又は参加者のオーディオデータをミュートしないこと、を含む、態様23に記載の方法。
【0085】
態様26-訓練データであって、オーディオ会議のコンテキストを示す文法を含む訓練データを使用してニューラルネットワークを訓練することを更に含み、オーディオデータを分類することが、ニューラルネットワークを使用してオーディオデータを分類することを含む、態様23に記載の方法。
【0086】
態様27-オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストの1つ以上を判定することが、参加者の声の登録バージョンに対してオーディオデータを分類して話者分類を決定することと、話者分類に基づいて、オーディオデータが参加者の声を表すかどうかを判定することと、訓練データに対してオーディオデータのコンテンツを分類してコンテキスト分類を決定することと、コンテキスト分類に基づいてオーディオデータがオーディオ会議のコンテキストを表すかどうかを判定することと、を含む、態様15から26のいずれか1つに記載の方法。
【0087】
態様28-オーディオデータの分析に基づいて、参加者のマイクロフォンを制御すること、又は参加者のオーディオデータを調整することが、参加者のオーディオデータがミュートされていると判定することと、オーディオデータが参加者の声を表すという判定に基づいて、及びオーディオデータがオーディオ会議のコンテキストを表すという判定に基づいて、参加者のオーディオデータをミュート解除することと、を含む、態様27に記載の方法。
【0088】
態様29-命令を記憶する非一時的コンピュータ可読記憶媒体であって、命令が、実行されると、1つ以上のプロセッサに、オーディオ会議の参加者からオーディオデータを受信させ、オーディオデータを分析させてオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定させ、オーディオデータの分析を生成させ、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御させる、又は参加者のオーディオデータを調整させる、非一時的コンピュータ可読記憶媒体。
【0089】
態様30-オーディオ会議を制御するように構成されている装置であって、オーディオ会議の参加者からオーディオデータを受信する手段と、オーディオデータを分析してオーディオデータの話者又はオーディオデータのコンテキストのうちの1つ以上を判定し、オーディオデータの分析を生成する手段と、オーディオデータの分析に基づいて、参加者のマイクロフォンを制御する、又は参加者のオーディオデータを調整する手段と、を備える、装置。
【0090】
1つ以上の例では、本明細書で説明される機能及び技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせで実装され得る。ソフトウェアで実装される場合、機能及び技術は、1つ以上の命令又はコードとして、コンピュータ可読媒体上に記憶されるか又はコンピュータ可読媒体を介して送信されてもよく、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に相当するコンピュータ可読記憶媒体、又は、例えば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このように、コンピュータ読み取り可能な媒体は一般に、(1)非一時的である有形のコンピュータ読み取り可能な記憶媒体、又は(2)信号又は搬送波のような通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技術の実装のための命令、コード、及び/又はデータ構造を取り出すために、1つ以上のコンピュータ又は1つ以上のプロセッサによってアクセスされ得る、任意の利用可能な媒体であってもよい。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
【0091】
限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROM若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、フラッシュメモリ、又は、命令若しくはデータ構造の形態の所望のプログラムコードを記憶するために使用でき、コンピュータによってアクセスすることができる任意の他の媒体を備えてもよい。また、任意の接続がコンピュータ可読媒体と適切に呼ばれる。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、又は赤外線、無線、及びマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、又は赤外線、無線、及びマイクロ波などのワイヤレス技術は、媒体の定義の中に含まれる。しかしながら、コンピュータ可読記憶媒体及びデータ記憶媒体は、接続、搬送波、信号、又は他の一時的媒体を含まず、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク(disk)及びディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)、及びブルーレイディスク(disc)を含み、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記のものの組み合わせもコンピュータ可読媒体の範囲内に含まれるべきである。
【0092】
命令は、1つ以上のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、又は他の等価な集積論理回路若しくはディスクリート論理回路機構などの、1つ以上のプロセッサによって実行され得る。したがって、本明細書で使用する「プロセッサ」という用語は、上記の構造、又は本明細書で説明する技術の実装に好適な任意の他の構造のいずれかを指すことがある。加えて、いくつかの態様では、本明細書で説明された機能は、符号化及び復号のために構成された専用のハードウェアモジュール及び/若しくはソフトウェアユニットモジュール内で提供されてもよく、又は複合コーデックの中に組み込まれてもよい。また、技術は、1つ以上の回路又は論理要素において完全に実装されてもよい。
【0093】
本開示の技術は、ワイヤレスハンドセット、集積回路(IC)、又はICのセット(例えば、チップセット)を含む、多種多様なデバイス又は装置において実装されてもよい。開示された技術を実施するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、又はユニットについて本開示で説明したが、それらは必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明したように、様々なユニットは、コーデックハードウェアユニットの中で組み合わせられてよく、又は好適なソフトウェア及び/若しくはファームウェアと連携して、上記で説明したような1つ以上のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供されてよい。
【0094】
様々な例が説明されてきた。これら及び他の例が以下の特許請求の範囲内に入る。
【国際調査報告】