(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-10
(54)【発明の名称】話者固有音声増幅
(51)【国際特許分類】
G10L 21/0208 20130101AFI20231227BHJP
【FI】
G10L21/0208 100Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023536933
(86)(22)【出願日】2021-11-17
(85)【翻訳文提出日】2023-06-16
(86)【国際出願番号】 CN2021131104
(87)【国際公開番号】W WO2022127485
(87)【国際公開日】2022-06-23
(32)【優先日】2020-12-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】オストランド、レイチェル
(72)【発明者】
【氏名】サラナタン、サンダー
(72)【発明者】
【氏名】ルー、ファン
(72)【発明者】
【氏名】アグルト リオス、カーラ パオラ
(57)【要約】
オーディオ会話中の単一の音声を増幅するための方法、システムおよびコンピュータ・プログラム製品。本方法の1つの実施形態は、コンピューティング・デバイスによって、ユーザからのスピーチのオーディオ・サンプルを受信することと、コンピューティング・デバイスによって、オーディオ・サンプルに基づいてユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することとを含んでもよい。この方法は、オーディオ会話中に、ユーザによるライブ・スピーチを含むライブ・オーディオビジュアル・ストリームを受信することであって、ライブ・オーディオビジュアル・ストリームはバックグラウンド・ノイズを含む、受信することと、コンピューティング・デバイスによって、バックグラウンド・ノイズを増幅することなく、ライブ・オーディオビジュアル・ストリーム中のライブ・スピーチを選択的に増幅するためにユーザ固有音響モデルを使用することとをさらに含んでもよい。
【特許請求の範囲】
【請求項1】
オーディオ会話中の単一の音声を増幅するためにコンピューティング・デバイスを使用する方法であって、
コンピューティング・デバイスによって、ユーザからのスピーチのオーディオ・サンプルを受信することと、
前記コンピューティング・デバイスによって、前記オーディオ・サンプルに基づいて前記ユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することと、
オーディオ会話中に、前記ユーザによるライブ・スピーチを含むライブ・オーディオビジュアル・ストリームを受信することであって、前記ライブ・オーディオビジュアル・ストリームは、バックグラウンド・ノイズを含む、前記受信することと、
前記コンピューティング・デバイスによって、前記バックグラウンド・ノイズを増幅することなく、前記ライブ・オーディオビジュアル・ストリーム中の前記ライブ・スピーチを選択的に増幅するために前記ユーザ固有音響モデルを使用することと
を含む、方法。
【請求項2】
前記コンピューティング・デバイスによって、前記ライブ・オーディオビジュアル・ストリーム中の前記バックグラウンド・ノイズを選択的に抑制するために前記ユーザ固有音響モデルを使用することをさらに含む、請求項1に記載の方法。
【請求項3】
前記ユーザ固有音響モデルは、電話会議ソフトウェアに対するプラグインである、請求項1に記載の方法。
【請求項4】
複数のユーザ固有音響モデルを生成することをさらに含み、各ユーザ特有音響モデルは、前記電話会議ソフトウェアの複数のユーザの各々の1人に対するものである、請求項3に記載の方法。
【請求項5】
実質的にバックグラウンド・ノイズのない環境における前記ユーザからの前記オーディオ・サンプルを収集することと、
前記ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用することと
をさらに含む、請求項1に記載の方法。
【請求項6】
前記ユーザ固有音響モデルを生成するためにトレーニング済の機械学習モデルを使用することをさらに含む、請求項5に記載の方法。
【請求項7】
事前トレーニング済の音響モデルを使用してユーザの音声を選択的に増幅するためのコンピュータ・プログラム製品であって、それと共に具現化されたプログラム命令を有するコンピュータ可読記憶媒体を備え、前記プログラム命令は、プロセッサによって実行可能であって、前記プロセッサに、
既存の音声サンプルからユーザのための音声データを抽出することと、
前記音声データから前記ユーザのための事前トレーニング済の音響モデルを作成することと、
電話会議からのオーディオ・ストリームを分析することと、
前記オーディオ・ストリームにおけるバックグラウンド・ノイズの存在を検出することと、
前記ユーザの音声を選択的に増幅し、前記バックグラウンド・ノイズは増幅しないように、前記オーディオ・ストリームに前記事前トレーニング済の音響モデルを適用することと
を行わせる、コンピュータ・プログラム製品。
【請求項8】
前記オーディオ・ストリームからの前記バックグラウンド・ノイズを選択的に抑制するために前記事前トレーニング済の音響モデルを使用するプログラム命令をさらに含む、請求項7に記載のコンピュータ・プログラム製品。
【請求項9】
前記事前トレーニング済の音響モデルは電話会議ソフトウェアに対するプラグインである、請求項7に記載のコンピュータ・プログラム製品。
【請求項10】
前記電話会議ソフトウェアの複数のユーザのうちの各々の1人のための複数のユーザ固有音響モデルを生成するプログラム命令をさらに含む、請求項9に記載のコンピュータ・プログラム製品。
【請求項11】
実質的にバックグラウンド・ノイズがない環境内の前記ユーザからオーディオ・サンプルを収集するプログラム命令と、
前記ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用するプログラム命令と
をさらに含む、請求項7に記載のコンピュータ・プログラム製品。
【請求項12】
前記ユーザに対して複数のユーザ固有音響モデルを生成するプログラム命令をさらに含み、前記複数のユーザ固有音響モデルの第1のユーザ固有音響モデルは、第1の言語におけるスピーチに適合されており、前記複数のユーザ固有音響モデルの第2のユーザ固有音響モデルは、第2の言語におけるスピーチに適合されている、請求項7に記載のコンピュータ・プログラム製品。
【請求項13】
前記ユーザに対する複数のユーザ固有音響モデルを生成するプログラム命令をさらに含み、前記複数のユーザ固有音響モデルの第1のユーザ固有音響モデルは、前記ユーザの通常の体調に適合されており、前記複数のユーザ固有音響モデルの第2のユーザ固有音響モデルは、前記ユーザの現在の体調に適合されている、請求項7に記載のコンピュータ・プログラム製品。
【請求項14】
コンピューティング・デバイスによって、実質的にバックグラウンド・ノイズのない環境からユーザからのスピーチのオーディオ・サンプルを受信することと、
前記オーディオ・サンプルから前記事前トレーニング済の音響モデルを生成するためにトレーニング済の機械学習モデルを使用することと
をさらに含む、請求項7に記載のコンピュータ・プログラム製品。
【請求項15】
オーディオ会話中の単一の音声を増幅するためのシステムであって、プログラム命令を実行するように構成されたプロセッサを備え、前記プログラム命令は、プロセッサ上で実行されると、前記プロセッサに、
ユーザからのスピーチのオーディオ・サンプルを受信することと、
前記オーディオ・サンプルに基づいて、前記ユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することと、
ライブ・オーディオビジュアル・ストリームを受信することであって、前記ライブ・オーディオビジュアル・ストリームは、オーディオ会話中の前記ユーザによるライブ・スピーチを含むとともに、バックグラウンド・ノイズを含む、前記受信することと、
前記バックグラウンド・ノイズを増幅することなく、前記ライブ・オーディオビジュアル・ストリーム中の前記ライブ・スピーチを選択的に増幅するように、前記ユーザ固有音響モデルを使用することと
を行わせる、システム。
【請求項16】
前記ライブ・オーディオビジュアル・ストリーム中の前記バックグラウンド・ノイズを選択的に抑制するために前記ユーザ固有音響モデルを使用するプログラム命令をさらに含む、請求項15に記載のシステム。
【請求項17】
前記ユーザ固有音響モデルは、電話会議ソフトウェアに対するプラグインである、請求項15に記載のシステム。
【請求項18】
複数のユーザ固有音響モデルを生成するプログラム命令をさらに含み、各ユーザ固有音響モデルは、前記電話会議ソフトウェアの複数のユーザの各々の1人に対するものである、請求項17に記載のシステム。
【請求項19】
実質的にバックグラウンド・ノイズなしの環境における前記ユーザからのオーディオ・サンプルを収集するプログラム命令と、
前記ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用するプログラム命令と
をさらに含む、請求項15に記載のシステム。
【請求項20】
前記ユーザ固有音響モデルを生成するためにトレーニング済の機械学習モデルを使用するプログラム命令をさらに含む、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、デジタル信号処理に関し、より詳細には、音声を増幅するための話者固有のシステムおよび方法に関する。
【背景技術】
【0002】
1948年のEDVACシステムの開発は、コンピュータ時代の始まりとしてしばしば引用される。それ以来、コンピュータ・システムは非常に複雑なデバイスに進化してきた。最新のコンピュータ・システムには、通常、高度なハードウェアおよびソフトウェアのコンポーネント、アプリケーション・プログラム、オペレーティング・システム、プロセッサ、バス、メモリ、入出力デバイスなどの組合せが含まれている。半導体処理とコンピュータ・アーキテクチャの進歩が性能をますます押し上げるにつれて、さらに高度なコンピュータ・ソフトウェアがこれらの機能のより高い性能を利用するように進化し、今日、数年前よりもはるかに強力なコンピュータ・システムが得られている。
【0003】
これらの新機能のうちの1つの応用が携帯電話である。今日、人々は日常的に公共スペース(例えば、カフェまたは電車)で電話をかけたり、リモートで作業したりしている。これらの環境では、子供、配偶者、ペット、工事、およびその他の多くの要因からのバックグラウンド・ノイズが会話を妨げる可能性がある。
【発明の概要】
【0004】
本開示の実施形態によれば、オーディオ会話中に単一の音声を増幅するためにコンピューティング・デバイスを使用する方法が提供される。本方法の1つの実施形態は、コンピューティング・デバイスによって、ユーザからのスピーチのオーディオ・サンプルを受信することと、コンピューティング・デバイスによって、オーディオ・サンプルに基づいてユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することとを含んでもよい。この方法は、オーディオ会話中に、ユーザによるライブ・スピーチを含むライブ・オーディオビジュアル・ストリームを受信することであって、ライブ・オーディオビジュアル・ストリームはバックグラウンド・ノイズを含む、受信することと、コンピューティング・デバイスによって、バックグラウンド・ノイズを増幅することなく、ライブ・オーディオビジュアル・ストリーム中のライブ・スピーチを選択的に増幅するためにユーザ固有音響モデルを使用することとをさらに含んでもよい。
【0005】
本開示の実施形態によれば、事前トレーニング済の音響モデルを使用してユーザの音声を選択的に増幅するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品の一実施形態は、それと共に具現化されたプログラム命令を有するコンピュータ可読記憶媒体を備えてもよい。プログラム命令は、プロセッサによって実行可能であって、プロセッサに、既存の音声サンプルからユーザのための音声データを抽出することと、音声データからユーザのための事前トレーニング済の音響モデルを作成することと、電話会議からのオーディオ・ストリームを分析することと、オーディオ・ストリームにおけるバックグラウンド・ノイズの存在を検出することと、ユーザの音声を選択的に増幅し、バックグラウンド・ノイズは増幅しないように、オーディオ・ストリームに事前トレーニング済の音響モデルを適用することと、を行わせてもよい。
【0006】
本開示の実施形態によれば、オーディオ会話中の単一の音声を増幅するためのコンピュータ・システムが提供される。このシステムの一実施形態は、プログラム命令を実行するように構成されたプロセッサを備えてもよく、プログラム命令は、プロセッサ上で実行されると、プロセッサに、ユーザからのスピーチのオーディオ・サンプルを受信することと、オーディオ・サンプルに基づいて、ユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することと、ライブ・オーディオビジュアル・ストリームを受信することであって、ライブ・オーディオビジュアル・ストリームは、オーディオ会話中のユーザによるライブ・スピーチを含むとともに、バックグラウンド・ノイズを含む、受信することと、バックグラウンド・ノイズを増幅することなく、ライブ・オーディオビジュアル・ストリーム中のライブ・スピーチを選択的に増幅するように、ユーザ固有音響モデルを使用することとを行わせる。
【0007】
上記の概要は、本開示のそれぞれの図示された実施形態、またはすべての実装形態を説明することを意図していない。
【0008】
本出願に含まれる図面は、明細書に組み込まれ、その一部を形成する。それらは、本開示の実施形態を説明し、明細書と共に、本開示の原理を説明するのに役立つ。図面は特定の実施形態の例示にすぎず、本開示を限定するものではない。
【図面の簡単な説明】
【0009】
【
図1】いくつかの実施形態と整合する、データ処理システム(DPS)の実施形態を示す図である。
【
図2】いくつかの実施形態と整合する、クラウド・コンピューティング環境を描いた図である。
【
図3】いくつかの実施形態と整合する、抽象化モデル・レイヤを描いた図である。
【
図4】いくつかの実施形態と整合する、コンピューティング環境のためのシステム図である。
【
図5】いくつかの実施形態と整合する、動作時のノイズ低減サービスのフローチャートである。
【
図6】いくつかの実施形態と整合する、機械学習モデルのトレーニングの一方法を示すフローチャートである。
【
図7】いくつかの実施形態と整合する、動作時の会議システムのフローチャートである。
【発明を実施するための形態】
【0010】
本発明は、様々な変形例および代替形態を受け入れる余地があるが、その詳細は、図面中に例として示されており、詳細に説明される。しかしながら、その意図は、記載された特定の実施形態に本発明を限定することではないことを理解されたい。反対に、その意図は、すべての変更、均等物、および代替物を本発明の範囲内に含めることである。
【0011】
本開示の態様は、デジタル信号処理に関し、より具体的な態様は、音声を増幅するための話者固有のシステムおよび方法に関する。本開示は必ずしもそのような応用に限定されないが、本開示の様々な態様は、この文脈を使用して様々な実施例を考察することを通じて理解されるであろう。
【0012】
本開示のいくつかの実施形態は、録音からユーザの話者固有音響モデルを構築するシステムを含むことができる。次いで、いくつかの実施形態は、話者固有音響モデルを使用して、これらの実施形態が、ユーザが話した内容(spoken content)を含む信号のその部分のみの音量を押し上げること、または、望ましくないソース(例えば、バックグラウンド)からのノイズの音量を低減すること、あるいはその両方ができるように、将来のライブ・オーディオ・ストリームまたはライブ・オーディオビジュアル・ストリーム、あるいはその両方においてユーザの音声を分離することができる。すなわち、いくつかの実施形態は、(a)望ましくないバックグラウンド・ノイズを低減/除去すること、および(b)話者自体の音声を強調することができる。バックグラウンド・ノイズは、次いで、会議システムそれ自体により生成される比較的に静的な音(例えば、ユーザのマイクロフォンによって録音または生成されるか、あるいはその両方である静的な音、マイクロフォンの出力のデジタル圧縮または送信中に生成されたアーチファクト、など)、環境ソースによって生成された比較的静的な音(例えば、ローカルなHVAC機器、車両エンジンおよびタイヤ音、航空機エンジン音、など)、動的な音(例えば、近くで話している他の人々、近くの建設機器および工事により生成された音、犬の吠え声、救急車サイレン、など)、および話者自身の音声ではない、その他の音を含むことがある。
【0013】
動作において、ユーザは、静粛な環境(すなわち、実質的にバックグラウンド・ノイズがない)において自身の音声を録音し、明瞭なターゲット録音またはターゲット録音のセットを作成することによって開始してもよい。次いで、いくつかの実施形態では、明瞭な録音を分析して、音声プロフィールに対する1つまたは複数のパラメータを生成することができる。次いで、いくつかの実施形態では、1つまたは複数のパラメータを使用して、ユーザの音声の話者固有音響モデルを構築することができる。この話者固有音響モデルは、特定のユーザの音声特徴に対して特別に調整してもよい(すなわち、各ユーザは、異なる、またはさらに特有の、それ自身に関連付けられた音響モデルを有する)。このようにして話者固有音響モデルを、その特定のユーザの音声、およびそのピッチおよび周波数範囲などの、スピーチ・パターンの特徴に適合させることができる。
【0014】
音響モデルが構築またはトレーニングされるか、あるいはその両方である場合には、モデルを作成するためと同じ特徴を、将来のライブ・オーディオ・ストリームまたはライブ・オーディオビジュアル・ストリームから抽出して処理することができる。これらのストリームに対する修正が必要ない場合には、元の入力を、ネットワーク・プラットフォームに送付してもよく、さもなければ、開示されたシステムは、信号を改善し、それをほぼリアルタイムで(例えば、100ミリ秒未満で)プラットフォーム(または電話会議の他の参加者、あるいはその両方)に送付することができる。このプロセスには、バックグラウンド・ノイズのレベルを測定すること、およびそのノイズを許容できるレベル(例えば、初期のトレーニング中に見られるのと類似のレベル)まで減衰させることを含めてもよい。これらの実施形態におけるモデルは、初期のトレーニングにおいて指定されたユーザの話者固有の特徴に関連付けられた、異なる音声パターンを観察し分析してもよい。
【0015】
いくつかの実施形態では、マイクロフォンを内蔵するコンピュータまたは電話であってもよい、関連する電子デバイスとユーザの相互作用を分析することによって、いつユーザが電話会議に参加したかを検出してもよい。また、いくつかの実施形態では、ユーザの名前を議題と比較することによるか、または現在のスピーチのコンテンツを検出することによって、ユーザが現在、プレゼンテーション中であると判定して、バックグラウンド・ノイズおよびその他の参加者の音声を押し下げながら、そのユーザの音声を選択的に増幅してもよい。
【0016】
検出に応答して、いくつかの実施形態では、オーディオ・ストリームを送信、または再送信するか、あるいはその両方を行うときに、動的バンド・パスまたはバンド・ストップ・フィルタを適用して、特定の周波数を選択的に増幅するか、または特定の周波数を選択的に抑制するか、あるいはその両方を行ってもよい。この抑制または増幅、あるいはその両方は、いくつかの実施形態では、時間ドメインまたは周波数ドメイン、あるいはその両方において行ってもよい。このようにして、ユーザの音声信号は、送信または再送信されるか、あるいはその両方である間に、効果的に強化されて、その他のノイズ(他の音声、非音声音(non-speech sounds))は、押さえられるか、または送信/再送信されないか、あるいはその両方としてもよい。
【0017】
さらに、いくつかの実施形態では、いくらかの環境ノイズ(例えば、車両のクラクション)があること、またはバックグラウンドで同時に他の人(例えば、子供)が話していることを検出してもよい。次いで、システムは、検出されたバックグラウンド・ノイズまたは検出された他の人の音声、あるいはその両方を、望ましくない信号として識別し、送信/再送信ストリームからそれらを除去することができる。より具体的には、いくつかの実施形態では、発表者に関連付けられた事前トレーニング済の音響モデルを自動的に活性化および非活性化して、発表者が話すときに、発表者の音声を強化してもよい。さらに、いくつかの実施形態では、検出されたノイズまたは音声、あるいはその両方を補償するように、事前トレーニング済の音響モデルを自動で選択的に修正してもよい。このようにして、他の会議参加者は、より明瞭に、干渉なく発表者の話しを聞くことができる。いくつかの実施形態は、時間の長さ、またはラウドネスに基づく閾値、あるいは事前トレーニングされたユーザのピッチ範囲からの逸脱量、その他などの、望ましくないバックグラウンド・ノイズとして検出されるものに対する構成可能な閾値を用いて構成してもよい。このようにして、音響忠実度(acoustic fidelity)を必要とするユーザおよびアプリケーションが、いくつかの実施形態によって実行されるフィルタリングの量または程度、あるいはその両方を減少させることができる。
【0018】
いくつかの実施形態における音響モデルは、ユーザの音響声紋(acoustic voiceprint)(プロフィール)に基づくものとすることができる。これらの特徴には、これらに限定はされないが、ピッチの変動と摂動(例えば、ジッタ)、周期性測定値(例えば、高調波ノイズ比)、線形予測符号化係数(LPC)、スペクトル形状測定値、音声開始時間、メル周波数ケプストラル係数(MFCC)、iベクトルなどが含まれる。モデルは、ユーザの承認を得て、最初に、話者固有であるユーザの声紋についてトレーニングすることができる。いくつかの実施形態において音響モデルとしては、教師なし音声アライメント・アルゴリズム、隠れマルコフ・モデル、不要ノイズ除去アルゴリズム、音素トークンDNNなどが含まれる。これらの特徴のいくつか(例えば、フォルマント(formant):F1およびF2)は、ユーザの音声の一意性を特徴付ける(例えば、指紋を得る)ために主として使用されてもよく、一方、これらの特徴の他のもの(例えば、高調波ノイズ比)は、バックグラウンド・ノイズを特徴付けるために主として使用され得る。
【0019】
いくつかの実施形態では、話者固有の音声プロフィールを構築するために分析できる音響的特徴としては、限定することなく、基本周波数、スペクトル包絡線、ピッチ特性(例えば、平均、最大、最小など)、様々な子音の音声開始時間(VOT)、母音発音を特徴付けるためのF1およびF2、ならびに母音持続時間からなる群から選択される1つまたは複数の特徴が含まれる。これらの音響的特徴は、1人のユーザの声を、他の人の声(特に上記の子音および母音の特徴)および非音声音(特に上記の高レベルのピッチおよび周波数の特徴)から区別するために使用することができる。
【0020】
いくつかの実施形態ではまた、喉が詰まったり、痛みがあるときなど、自分の声が多少異なるときのために、ユーザのための補足音響モデルを作成することができる。同様に、いくつかの実施形態ではまた、異なる言語が同じ話者に対してであっても異なる音韻プロフィールを有し得るので、ユーザが話す各言語について、カスタマイズされた話者固有音響モデルを作成することができる。
【0021】
第1の説明例として、ユーザ(「A」)がリモートで働いていると仮定する。結果として、ユーザAは、自分の夫、子供、およびペットと一緒に多くの時間、家にいるが、これらはすべて、ビジネス電話をかける間に、バックグラウンドでノイズを出す。特に、ユーザAが会議に電話で参加するとき、バックグラウンドで自分の犬が吠えているのが聞こえることが多い。この例においては、音響モデルは、ユーザAの音声について以前にトレーニングされており、自分の音声とスピーチ・パターンに対してカスタマイズされた、固有の音響プロフィールを有する。したがって、この例におけるシステムは、ユーザAの音声を検出して、次いで、自分の音声だけを選択的に増幅しながら、他の会議参加者にブロードキャストされる彼女の犬によるノイズを同時に低減することができる。
【0022】
第2の説明例として、ユーザ(「B」)は、会議に遅れそうである。ユーザBは、自分の車の中で会議に電話で参加する。その結果、道路、車のエンジン、さらには後部座席の泣いている自分の赤ん坊からの、多くのバックグラウンド・ノイズがある。従来的に、ユーザBは、自分をミュートに設定することによってこのノイズを部分的に緩和することが可能であるが、そうすると、この外来のノイズのすべてで自分の同僚の注意を逸らすことなく、その会議に完全に参加することができない。しかしながら、本開示のいくつかの実施形態を使用すると、話者固有音響モデルは、ユーザBの音声について事前トレーニングしておくことができる。そうすると、自分が車の中から電話をすると、いくつかの実施形態では、(例えば、道路、自分の車などからの)自分の音声と整合性のない音響特性を低減しながら、ユーザBの音声に固有の様々な音響特性を識別して強化することができる。こうして、ユーザBは、自分の環境からの大きいノイズを送信することなく会議において話すことができる。
【0023】
第3の説明例として、ユーザ(「C」)は、軽い風邪をひいており、その結果として、自分の同僚への考慮からリモートで働いている。ユーザCが会議に電話で参加している間に、ユーザCは、時折、咳やくしゃみをする。いくつかの実施形態を使用すると、音響モデルを、例えば、咳やくしゃみのない、ユーザCの正常な音声について事前トレーニングされている可能性があり、したがって、咳やくしゃみを望ましくないバックグラウンド・ノイズとして選択的に除去しながら、自分のスピーチの信号を選択的に強化することができる。さらに、会議中に自分が咳やくしゃみをしがちであることを知って、ユーザCは、いくつかの実施形態においては、これらの咳がフィルタリングされることを確実にするために、時間の長さ、またはラウドネス、または事前トレーニングされたユーザのピッチ範囲からの逸脱量などのいずれかに基づいて、望ましくないバックグラウンド・ノイズとして考慮されるものに対する閾値を構成することができる。
【0024】
第4の説明例として、ユーザ(「D」)は、喉の痛みをともなう病気であり、この感染の自分の同僚への拡散を防止するためにリモートで働いている。しかしながら、感染の結果として、ユーザDの音声は、現在、自分の正常な音声とは異なって聞こえている。本開示のいくつかの実施形態は、ユーザDが、ユーザの音声(例えば、自分の「正常」なスピーチ、ならびに、例えば、病気による、自分の現在の「異常な」音声)の追加のカスタマイズされた音響モデルを作成する(または、自分の関連する音響モデルを調節する)ことを可能にする。このようにユーザDは、自分が会議に電話で参加するときに、自分の現在の音声が自分の正常な音声といくぶん異なる音響特性を有しているとしても、システムが、それをバックグラウンド・ノイズとして抑制するのと反対にそれを認識して強化することができるように、自分の腫れた喉声に対してシステムの別のバージョンをトレーニングすることを選択することができる。さらに、いくつかの実施形態では、ユーザDの現在の音声が、他の会議参加者に提示されるときに、自分の正常な音声らしく聞こえるように、それらの音響特性を、選択的に修正することができる。
【0025】
したがって、いくつかの実施形態の1つの特徴および利点は、それらの実施形態が、ユーザの音声を増幅するか、またはノイズを抑制するか、あるいはその両方のために、ユーザが指向性マイクロフォンなどの固有のハードウェアを有して使用することを必要としないことである。結果として、いくつかの実施形態は、既存のビデオ会議システムとマイクロフォン処理ソフトウェアへのプラグインとして統合することができる。いくつかの実施形態の別の特徴および利点は、事前トレーニング済の音響モデルを使用してユーザの音声を選択的に増幅することである。このように、いくつかの実施形態では、所望の、しかし予期しない、ノイズを含む、より大きいダイナミック・レンジの音をブロードキャストすることを継続することができる。いくつかの実施形態の別の特徴および利点は、それらがユーザの音声特徴を学習して、それをベースに信号を選択的に強化することができることである。このように、いくつかの実施形態は、ユーザがそのローカルな物理環境内で動き回っている場合でもノイズ低減を可能にし、2人以上の話者が一度に1つのマイクロフォンを使用することを可能にするか、または2人以上の話者が一度に話すことを可能にするか、あるいはそれらの組合せを可能にする。
【0026】
データ処理システム
図1は、いくつかの実施形態と整合する、データ処理システム(DPS)100aの一実施形態を示している。本実施形態におけるDPS100aは、パーソナル・コンピュータ;サーバ・コンピュータ;ラップトップもしくはノートブック・コンピュータ、PDA(パーソナル・デジタル・アシスタント)、タブレット・コンピュータ、またはスマートフォンなどのポータブル・コンピュータ;自動車、飛行機、電話会議システム、電化製品などの大型デバイスに組み込まれたプロセッサ;スマート・デバイス;あるいはその他の適切な種類の電子デバイスとして実装されてもよい。また、
図1に示したもの以外、またはそれに加えたコンポーネントも存在してもよく、そのようなコンポーネントの数、タイプ、および構成は変化する可能性がある。また、
図1は、DPS100aの代表的な主要コンポーネントのみを描いたものであり、個々のコンポーネントは、
図1に表わされるよりも複雑さが増す場合がある。
【0027】
図1のデータ処理システム100aは、システム・バス122によってメモリ112、大容量記憶インターフェース114、端末/ディスプレイ・インターフェース116、ネットワーク・インターフェース118、および入出力(「I/O」)インターフェース120に接続された、複数の中央処理ユニット110a~110d(本明細書では総称してプロセッサ110またはCPU110と呼ぶ)を備える。本実施形態における大容量記憶インターフェース114は、システム・バス122を、直接アクセス記憶デバイス140、ユニバーサル・シリアル・バス(「USB」)記憶デバイス141、または読み取り/書き込み可能な光ディスク・ドライブ142などの、1つまたは複数の大容量記憶デバイスに接続する。ネットワーク・インターフェース118は、DPS100aが通信媒体106を介して他のDPS100bと通信することを可能にする。メモリ112はまた、オペレーティング・システム124、複数のアプリケーション・プログラム126、およびプログラム・データ128を含む。
【0028】
図1の実施形態のデータ処理システム100aは汎用のコンピューティング・デバイスである。したがって、プロセッサ110は、メモリ112内に記憶されたプログラム命令を実行することができる任意のデバイスであってもよく、それ自体が1つまたは複数のマイクロプロセッサまたは集積回路、あるいはその両方で構成されてもよい。この実施形態では、DPS100aは、より大規模でより能力の高いコンピュータ・システムの典型であるように、複数のプロセッサまたはプロセッシング・コア、あるいはその両方を含むが、他の実施形態では、データ処理システム100aは、シングル・プロセッサ・システム、またはマルチプロセッサ・システムをエミュレートするように設計されたシングル・プロセッサ、あるいはその両方を備えることができる。さらに、プロセッサ110は、メイン・プロセッサがシングル・チップ上にセカンダリ・プロセッサと共に存在する、多数のヘテロジニアス・データ処理システム100aを使用して実装することができる。別の説明例として、プロセッサ110は、同じタイプの複数のプロセッサを含む対称マルチプロセッサ・システムであってもよい。
【0029】
データ処理システム100aが起動すると、関連するプロセッサ110は、DPS100aの物理的および論理的リソースを管理するオペレーティング・システム124を構成するプログラム命令を最初に実行する。これらのリソースには、メモリ112、大容量記憶インターフェース114、端末/ディスプレイ・インターフェース116、ネットワーク・インターフェース118、およびシステム・バス122が含まれる。プロセッサ110と同様に、いくつかのDPS100a実施形態は、複数のシステム・インターフェース114、116、118、120、およびバス122を利用してもよく、それらは、それぞれ、それら自身の別個の、完全にプログラムされたマイクロプロセッサを含んでもよい。
【0030】
オペレーティング・システム、アプリケーション、またはプログラム、あるいはそれらの組合せ(一般に「プログラム・コード」、「コンピュータ使用可能プログラム・コード」、または「コンピュータ可読プログラム・コード」と呼ばれる)に対する命令は、最初は、システム・バス122を介してプロセッサ110と通信している大容量記憶デバイス140、141、142に配置してもよい。異なる実施形態におけるプログラム・コードは、システム・メモリ112または大容量記憶デバイス140、141、142などの、異なる物理的または有形のコンピュータ可読媒体上に具現化することができる。
図1における説明例において、命令は、直接アクセス記憶デバイス140上の永続記憶の機能形態で記憶される。次いで、これらの命令は、プロセッサ110による実行のために、メモリ112にロードされる。しかしながら、プログラム・コードは、選択的に取り外し可能なコンピュータ可読媒体上に機能的な形態で配置されて、プロセッサ110による実行のためにDPS100aにロードされるか、またはそこに転送されてもよい。
【0031】
システム・バス122は、プロセッサ110、メモリ112、インターフェース114、116、118、120の間の通信を容易にする任意のデバイスであってもよい。さらに、この実施形態におけるシステム・バス122は、システム・バス122間の直接通信経路を提供する比較的単純な単一のバス構造であるが、限定はされないが、階層構成、スター構成またはウェブ構成におけるポイント間リンク、複数の階層バス、並列および冗長経路などを含む、他のバス構造も、本開示と整合性がある。
【0032】
メモリ112と大容量記憶デバイス140、141、142は協働して動作し、オペレーティング・システム124、アプリケーション・プログラム126、およびプログラム・データ128を記憶する。本実施形態では、メモリ112は、データやプログラムを記憶することが可能なランダム・アクセス半導体デバイスである。
図1は、そのデバイスを単一のモノリシック・エンティティとして概念的に描いているが、いくつかの実施形態におけるメモリ112は、キャッシュと他のメモリ・デバイスの階層などの、より複雑な構成であってもよい。例えば、メモリ112は、複数のレベルのキャッシュに存在してもよく、これらのキャッシュは、1つのキャッシュは命令を保持し、別のキャッシュは、プロセッサによって使用される非命令データを保持するように、機能によってさらに分割されてもよい。メモリ112は、様々ないわゆる非一様メモリ・アクセス(NUMA)コンピュータ・アーキテクチャのいずれにおいても知られているように、さらに分散され、異なるプロセッサ110またはプロセッサ110のセットと関連付けられてもよい。さらに、いくつかの実施形態は、仮想アドレス指定メカニズムを利用してもよく、これによって、DPS100aは、メモリ112および大容量記憶デバイス140、141、142などの複数のより小さな記憶エンティティにアクセスするのではなく、大きな単一の記憶エンティティへのアクセスを有するかのように挙動することが可能になる。
【0033】
オペレーティング・システム124、アプリケーション・プログラム126、およびプログラム・データ128は、メモリ112内に含まれるものとして図示されているが、それらのいくつかまたはすべては、物理的に異なるコンピュータ・システム上に配置されてもよく、いくつかの実施形態では、例えば、通信媒体106を介して、リモートでアクセスすることができる。したがって、オペレーティング・システム124、アプリケーション・プログラム126、およびプログラム・データ128は、メモリ112内に含まれるものとして図示されているが、これらの要素は、必ずしもすべてが同時に同じ物理的なデバイスに完全に含まれるとは限らず、DPS100bなどの他のDPSの仮想メモリ内に存在してもよい。
【0034】
システム・インターフェース114、116、118、120は、様々な記憶デバイスおよびI/Oデバイスとの通信をサポートする。大容量記憶インターフェース114は、通常は回転する磁気ディスク・ドライブ記憶デバイス、通常はフラッシュ・メモリを使用して、集積回路アセンブリをメモリとして使用してデータを永続的に記憶する、ソリッドステート記憶デバイス(SSD)、またはそれら2つの組合せである、1つまたは複数の大容量記憶デバイス140、141、142の取り付けをサポートする。しかしながら、大容量記憶デバイス140、141、142は、ホストに対して単一の大型記憶デバイスとして見えるように構成された、ディスク・ドライブのアレイ(一般にRAIDアレイと呼ばれる)および/またはアーカイブ記憶媒体、例えば、ハード・ディスク・ドライブ、テープ(例えば、ミニDV)、書き込み可能なコンパクト・ディスク(例えば、CD-RおよびCD-RW)、デジタル・バーサタイル・ディスク(例えば、DVD、DVD-R、DVD+R、DVD+RW、DVD-RAM)、ホログラフィ記憶システム、青色レーザー・ディスク、IBM(登録商標)Millipedeデバイスなどを含む、その他のデバイスを備えてもよい。
【0035】
端末/ディスプレイ・インターフェース116は、モニタ等を含む1つまたは複数のディスプレイ・ユニット180をデータ処理システム100aに直接的に接続するために使用される。これらのディスプレイ・ユニット180は、LEDモニタなどの非インテリジェント(すなわち、ダム)端末であってもよく、またはそれら自体が、IT管理者および顧客がDPS100aと通信することを可能にするために使用される、完全にプログラム可能なワークステーションであってもよい。しかしながら、ディスプレイ・インターフェース116は、1つまたは複数のディスプレイ・ユニット180との通信をサポートするために設けられているが、顧客および他のプロセスとの必要な相互作用のすべてがネットワーク・インターフェース118を介して発生するので、データ処理システム100aは、必ずしもディスプレイ・ユニット180を必要としないことに留意されたい。
【0036】
通信媒体106は、任意の適切なネットワークまたはネットワークの組合せであってもよく、複数のDPS100a、100bとの間のデータまたはコード、あるいはその両方の通信に適した、任意の適切なプロトコルをサポートしてもよい。したがって、ネットワーク・インターフェース118は、ネットワーク接続が現在のアナログ技術またはデジタル技術、あるいはその両方を使用して行われるか、または将来の何らかのネットワーキング・メカニズムを介して行われるかにかかわらず、そのような通信を容易にする任意のデバイスであってもよい。適切な通信媒体106としては、それに限定するものではないが、「InfiniBand」またはIEEE(米国電気電子学会)802.3x「イーサネット(R)」仕様;セルラー伝送ネットワーク;IEEE 802.11x、IEEE 802.16、ジェネラル・パケット・ラジオ・サービス(「GPRS」)、FRS(ファミリ・ラジオ・サービス)、またはBluetooth(登録商標)仕様のいずれかを実装したワイヤレス・ネットワーク;FCC 02-48に記載されているような超広帯域無線(「UWB」)テクノロジ;その他のうちの1つまたは複数を使用して実装されたネットワークが挙げられる。当業者は、多くの異なるネットワークおよびトランスポート・プロトコルを使用して通信媒体106を実装できることを理解するであろう。トランスミッション・コントロール・プロトコル/インターネット・プロトコル(「TCP/IP」)スイートには、適切なネットワーク・プロトコルとトランスポート・プロトコルが含まれている。
【0037】
クラウド・コンピューティング
図2は、いくつかの実施形態と整合する、1つまたは複数のDPS100a、100bを包含するクラウド環境を示す。本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施は、クラウド・コンピューティング環境に限定されないことを理解されたい。むしろ、本開示の実施形態は、現在知られているか、または後に開発される、任意その他のタイプのコンピューティング環境と組み合わせて実施することができる。
【0038】
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話で、迅速にプロビジョニングおよびリリースができる、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にする、サービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
【0039】
特徴は以下の通りである:
オンデマンド・セルフサービス(on-demand self-service):クラウド・コンシューマは、サービスのプロバイダとの人的な相互作用を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどの、コンピューティング機能を一方的にプロビジョニングできる。
幅広いネットワーク・アクセス(broad network access):機能は、ネットワーク経由で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えば、モバイル・フォン、ラップトップ、およびPDA)での使用を促進する、標準メカニズムを介してアクセスされる。
リソース・プーリング(resource pooling):プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを使用して、複数のコンシューマに、需要に応じて、動的に割り当て、および再割り当てされる、異なる物理リソースおよび仮想リソースのサービスを提供するためにプールされている。コンシューマは一般に、提供されるリソースの正確な場所を制御することができないか、またはそれについての知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で場所を指定できる可能性があるという点で、場所独立性の感覚がある。
迅速な弾力性(rapid elasticity):機能を迅速かつ弾力的に、場合によっては自動的に提供して、迅速にスケール・アウトするとともに、迅速にリリースして素早くスケール・インすることができる。コンシューマには、プロビジョニングに利用可能な機能は無制限に見えることが多く、いつでも任意の数量で購入できる。
測定されるサービス(measured service):クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適した抽象化レベルで計量機能を活用することにより、リソースの使用を自動的に制御し、最適化する。リソースの使用を監視、制御、および報告できるため、利用されるサービスのプロバイダとコンシューマの両方に、透明性が提供される。
【0040】
サービス・モデルは次の通りである:
ソフトウェア・アズ・ア・サービス(SaaS:Software as a Service):コンシューマに提供される機能は、クラウド・インフラストラクチャで実行されているプロバイダのアプリケーションを使用することである。これらのアプリケーションは、Webブラウザ(例えば、Webベースの電子メール)などのシン・クライアント・インターフェースを通して、様々なクライアント・デバイスからアクセス可能である。制限されたユーザ固有のアプリケーション構成設定が例外となる可能性を除き、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャの管理または制御を行わない。
プラットフォーム・アズ・ア・サービス(PaaS:Platform as a Service):コンシューマに提供される機能は、プロバイダがサポートするプログラミング言語とツールを使用してコンシューマが作成または取得したアプリケーションを、クラウド・インフラストラクチャに展開することである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージなどの基盤となるクラウド・インフラストラクチャの管理または制御は行わないが、展開されたアプリケーションと、場合によってはアプリケーション・ホスティング環境構成に対する制御ができる。
インフラストラクチャ・アズ・ア・サービス(IaaS:Infrastructure as a Service):コンシューマに提供される機能は、コンシューマがオペレーティング・システムやアプリケーションを含む任意のソフトウェアを展開して実行できる処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャの管理または制御は行わないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対する制御を行うとともに、場合によっては選択ネットワーク・コンポーネント(例えば、ホスト・ファイアウォール)の限定された制御を行う。
【0041】
展開モデルは次の通りである:
プライベート・クラウド:クラウド・インフラストラクチャは、組織専用に運用される。それは、組織またはサード・パーティによって管理され、オン・プレミスまたはオフ・プレミスに存在する可能性がある。
コミュニティ・クラウド:クラウド・インフラストラクチャは、複数の組織によって共有されて、懸念事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス考慮事項)を共有する、特定のコミュニティをサポートする。それは、組織またはサード・パーティによって管理されてもよく、オン・プレミスまたはオフ・プレミスに存在する可能性がある。
パブリック・クラウド:クラウド・インフラストラクチャは、一般の人々または大規模な業界グループに対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、特有のエンティティのままであるが、データとアプリケーションの移植性を可能にする標準化されたテクノロジまたは独自のテクノロジ(例えば、クラウド間の負荷平均化のためのクラウド・バースティング(cloud bursting))によって結び付けられた、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成体である。
【0042】
クラウド・コンピューティング環境は、ステートレス性(statelessness)、低結合性(low coupling)、モジュール性、およびセマンティック相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの中心にあるのは、相互接続されたノードのネットワークを含む、インフラストラクチャである。
【0043】
ここで、
図2を参照すると、説明用のクラウド・コンピューティング環境50が描かれている。図示されるように、クラウド・コンピューティング環境50は、例えば、パーソナル・デジタル・アシスタント(PDA)またはセルラー電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システム54N、あるいはそれらの組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信することができる。それらは、本明細書で上述したようなプライベート、コミュニティ、パブリック、またはハイブリッドの各クラウドなどの、1つまたは複数のネットワーク、またはそれらの組合せにおいて、物理的または仮想的にグループ化されてもよい(図示せず)。これにより、クラウド・コンピューティング環境50は、クラウド・コンシューマがローカル・コンピューティング・デバイス上のリソースを維持する必要がないサービスとして、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはそれらの組合せを提供することができる。
図2に示されるタイプのコンピューティング・デバイス54A~54Nは、説明のみを目的としており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能な接続、あるいはその両方を介して、(例えば、ウェブ・ブラウザを使用して)任意のタイプのコンピュータ化されたデバイスと通信できることが理解される。
【0044】
次に
図3を参照すると、クラウド・コンピューティング環境50(
図2)によって提供される機能抽象化レイヤのセットが示されている。
図3に示すコンポーネント、レイヤ、および機能は説明のためにすぎず、本発明の実施形態はこれらに限定されないことを予め理解しておくべきである。図に示すように、以下のレイヤ、および対応する機能が提供される。
【0045】
ハードウェア/ソフトウェア・レイヤ60は、ハードウェアおよびソフトウェアのコンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム61;RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62;サーバ63;ブレード・サーバ64;記憶デバイス65;ならびにネットワークおよびネットワーキング・コンポーネント66が挙げられる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0046】
仮想化レイヤ70は、抽象化レイヤを提供し、それから、仮想エンティティの以下の例が提供され得る:仮想サーバ71;仮想ストレージ72;仮想プライベート・ネットワークを含む、仮想ネットワーク73;仮想アプリケーションおよびオペレーティング・システム74;ならびに仮想クライアント75。
【0047】
一例では、管理レイヤ80は、以下に説明する機能を提供し得る。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。メータリングおよびプライシング82は、クラウド・コンピューティング環境内でリソースが使用される際のコスト追跡と、これらのリソースの消費に対する請求書送付(billing)またはインボイス送付を提供する。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクに対する本人確認(identity verification)に加えて、データやその他のリソースの保護を提供する。カスタマ・ポータル83は、コンシューマおよびシステム管理者に対してクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、必要なサービス・レベルに合致するように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス・レベル・アグリーメント(SLA)計画および履行85は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前手配と調達を提供する。
【0048】
ワークロード・レイヤ90は、クラウド・コンピューティング環境がそれに対して利用され得る機能の例を提供する。このレイヤから提供され得る、ワークロードおよび機能の例としては、マッピングおよびナビゲーション91;ソフトウェア開発およびライフサイクル管理92;仮想教室教育配信93;データ分析処理94;トランザクション処理95;およびノイズ低減サービス96が挙げられる。
【0049】
音響プラットフォーム
図4は、いくつかの実施形態と整合する、コンピューティング環境400のシステム図である。コンピューティング環境400には、ネットワーク406越しに複数のユーザ・デバイス403に接続された会議コンピュータ・プラットフォーム402が含まれる。会議コンピュータ・プラットフォーム402は、次いで、会議モジュール480およびノイズ低減サービス496を備える。ノイズ低減サービス496には、複数のカスタマイズされた音響プロフィール499を、会議コンピュータ・プラットフォーム402の各ユーザについて1つまたは複数だけ生成する、トレーニング済の機械学習モデル498が含まれる。いくつかの実施形態における会議モジュール480には、複数のカスタマイズされた音響プロフィールを含む、データベース482が含まれる。
【0050】
会議コンピュータ・プラットフォーム402は、スタンドアロン・コンピューティング・デバイス、管理サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイス、または、データを受信、送信、および処理することができる他の任意の電子デバイスまたはコンピューティング・システムであってもよい。いくつかの実施形態では、会議コンピュータ・プラットフォーム402は、クラウド・コンピューティング環境50の一部であってもよく、その環境内のコンピューティング・リソースのプールを表わすことができる。会議コンピュータ・プラットフォーム402には、
図1におけるDPS100を参照してさらに詳細に描かれ、説明されるように、内部ハードウェア・コンポーネントおよび外部ハードウェア・コンポーネントが含まれる。
【0051】
ユーザ・デバイス403は、機械可読プログラム命令を実行するとともに、コンピューティング環境400内でネットワーク406を介して他のコンピューティング・デバイス(図示せず)と通信することができる、1つまたは複数のプログラム可能な電子デバイス、またはプログラム可能な電子デバイスの組合せを表わすことができる。好適なユーザ・デバイス403は、限定するものではないが、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、スマートフォン、スマート・ウォッチ、および音声グレード電話ハンドセットを含む。
【0052】
いくつかの実施形態では、ユーザ・デバイス403には、1つまたは複数のボイス・オーバー・インターネット・プロトコル(VoIP)互換デバイス(すなわち、ボイス・オーバーIP、IPテレフォニ、ブロードバンド・テレフォニ、およびブロードバンド電話サービス)が含まれる。VoIPとは、一般に、インターネットなどのインターネット・プロトコル(IP)ネットワークを介して音声通信およびマルチメディア・セッションを配信するための方法論およびテクノロジ群を指している。VoIPは、スマートフォン、パーソナル・コンピュータ、およびネットワーク406と通信可能なユーザ・デバイス403などの任意の一般的なコンピューティング・デバイスに統合することができる。いくつかの実施形態では、ユーザ・デバイス403には、オーディオ会議またはビデオ会議の環境における使用に適合された、1つまたは複数のスピーカフォンが含まれる。スピーカフォンとは、一般に、少なくとも拡声器、マイクロフォン、および1つまたは複数のマイクロプロセッサを含む、オーディオ・デバイスを指す。
【0053】
いくつかの実施形態では、ユーザ・デバイス403には、ユーザ・インターフェース(
図1には独立して示されていない)が含まれる。このユーザ・インターフェースは、ユーザ・デバイス403と会議コンピュータ・プラットフォームとの間のインターフェースを提供することができる。いくつかの実施形態では、ユーザ・インターフェースは、テキスト、ドキュメント、ウェブ・ブラウザ・ウィンドウ、ユーザ・オプション、アプリケーション・インターフェース、および動作に対する命令を表示することができる、グラフィカル・ユーザ・インターフェース(GUI)またはウェブ・ユーザ・インターフェース(WUI)として、プログラムがユーザに提示する(グラフィック、テキスト、および音などの)情報と、ユーザがプログラムを制御するために採用する制御シーケンスとを含めてもよい。別の実施形態では、ユーザ・インターフェースには、各ユーザ・デバイス403と会議コンピュータ・プラットフォーム402との間のインターフェースを提供する、モバイル・アプリケーション・ソフトウェアが含まれる。モバイル・アプリケーション・ソフトウェア、または「アプリ」は、通常、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、その他のモバイル・デバイスで実行されるクラスのコンピュータ・プログラムである。
【0054】
図4のネットワーク406は、例えば、公衆交換電話網(PSTN)、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、またはそれらの組合せを備えてもよく、有線、無線、または光ファイバの接続を含み得る。ネットワーク406は、会議コンピュータ・プラットフォーム402とユーザ・デバイス403との間の通信をサポートする接続およびプロトコルの組合せ、例えば、受信および送信データ、音声、および/または音声、データ、およびビデオ情報を含むマルチメディア信号を含む、ビデオ信号などを利用することができる。
【0055】
会議コンピュータ・プラットフォームは、いくつかの実施形態では、ノイズ低減サービス496を提供することができる。
図5は、いくつかの実施形態と整合する、動作中のノイズ低減サービス496のフローチャートである。動作505において、ユーザは、オーディオ・サンプル(例えば、録音)を作成してもよい。いくつかの実施形態では、ユーザは、高品質のマイクロフォンを使用して、静かな環境で所定のスクリプトを読むように求められる。スクリプトは、所与の言語の最も一般的な音素またはすべての音素などの、多数の特有のオーディオ特徴を含むように選択されてもよい。次いで、このオーディオ・サンプルは、トレーニング・フェーズ508の一部として使用される。
【0056】
トレーニング・フェーズ508において、ノイズ低減サービス496は、動作510において、オーディオ・サンプルを受信する。それに応答して、ノイズ低減サービス496は、動作515において、オーディオ・サンプルからオーディオ特徴を抽出し、次いで、それらの特徴をトレーニング済の機械学習モデル498に送給してもよい。次に、機械学習モデル498は、動作520において、特徴から、ユーザに対する第1のカスタマイズされた音響プロフィール499aを生成することができる。この音響プロフィール499aは、録音ストリームからユーザの音声の全ダイナミック・レンジを選択的に識別または分離するか、あるいはその両方を行うように最適化されてもよい。動作525~530において、ユーザは、任意選択で、カスタマイズされた音響プロフィール499aによって処理された状態の(オペレーション505で作成された)録音を聞いて、次いで、モデルを承認または拒絶する機会が与えられる。ユーザがカスタマイズされた音響プロフィール499aを拒絶する場合(530:NO)、ノイズ低減サービス496は、新しいサンプルを収集して処理するために動作505、510に戻ることができる。ユーザがカスタマイズされた音響プロフィール499aを受け入れる場合(530:YES)、システムは、将来のライブ会議で使用するためのモデルを出力できる。
【0057】
その後、ユーザまたはノイズ低減サービス496あるいはその両方は、追加のトレーニング・フェーズ550を開始できる。この追加のトレーニングにより、ユーザのための追加の補足音響プロフィール499b~499nの作成が可能になる。これらの補足プロフィールは、ユーザの現在の体調、例えば、風邪または喉の痛み、に応じて作成されてもよいし、代替言語のための音響プロフィールを最適化してもよい。例えば、ユーザは、英語を話すときの通常の音声の1つのプロフィール499a、英語を話すときの咳声の1つのプロフィール499b、スペイン語を話すときの通常の音声の1つのプロフィール499c、および病気のときの特定の日に使用するための1つのプロフィール499dを有することができる。この説明例では、ユーザは、システムに記憶された4つの別個の音響プロフィール499を有し、電話会議の開始時に1つを選択することができる。
【0058】
初期トレーニング・フェーズ508と同様に、調整フェーズは、ユーザが提出した新しいオーディオ・サンプルを、555において、受信することから始まる。それに応答して、ノイズ低減サービス496は、新しいオーディオ・サンプルからオーディオ特徴を抽出し、次いで、動作560において、それらの特徴をトレーニング済の機械学習モデル498に送給できる。次に、機械学習モデル498の音声改善モジュール497は、動作565において補足音響プロフィール499b~499nを生成できる。いくつかの実施形態では、これは、元の音響プロフィール499を受信して調整することを含む。動作570~575において、ユーザは、任意選択で、補足音響プロフィール499aによって処理された状態の(オペレーション505で作成された)録音を聞いて、次いで、更新されたモデルを承認または拒絶する機会を与えられる。ユーザが補足音響プロフィール499b~499nを拒絶する場合(575:NO)、ノイズ低減サービス496は、新しいサンプルを収集して処理するために動作505、555に戻ることができる。ユーザが補足音響プロフィール499b~499n(575:YES)を受け入れる場合、システムは将来のライブ会議で使用するためのモデルを出力することができる。いくつかの実施形態では、このことは、ユーザがその会議においてどの音響プロフィール499a~499nを使用するかを選択することを可能にすることを含む。
【0059】
モデル・トレーニング
いくつかの実施形態では、機械学習モデル498は、パターンを認識する任意のソフトウェア・システムであってもよい。いくつかの実施形態では、機械学習には、シナプスと呼ばれる接続点を介して相互接続された、複数の人工ニューロンが含まれる。各シナプスは、あるニューロンの出力と別のニューロンの入力との間の接続の強さを符号化することができる。各ニューロンの出力は、次いで、それに接続されている他のニューロンから受信した集約入力によって、したがって、これらの「上流」に接続されたニューロンの出力と、シナプス重みによって決まる接続の強さとによって、決定される。
【0060】
MLモデルは、特定のクラスの入力が所望の出力を生成するように、シナプスの重みを調整することによって、特定の問題を解決するように(例えば、カスタマイズされたユーザ固有音響モデルの構成設定を生成するように)トレーニングすることができる。これらの実施形態における、この重み調整手順は、「学習」として知られている。理想的には、これらの調整は、学習プロセス中に、何らかのコスト関数に基づいて、与えられた問題の最適解に向かって収束するシナプス重みのパターンにつながる。
【0061】
いくつかの実施形態において、人工ニューロンは、層に編成することができる。外部データを受け取る層は入力層である。最終的な結果を生成する層は、出力層である。いくつかの実施形態には、入力層と出力層の間の隠れ層が含まれ、一般に数百のそのような隠れ層が含まれる。
【0062】
図6は、いくつかの実施形態と整合する、機械学習モデル498をトレーニングする1つの方法600を示すフローチャートである。システム・マネージャは、動作610においてトレーニング・ベクトルをロードすることから始めてもよい。これらのベクトルは、静かな部屋で採取された、特別に準備されたトランスクリプトを読み取る、複数の異なるユーザからの録音を含めてもよい。
【0063】
動作612において、システム・マネージャは、所望の出力(例えば、音響モデル499に対する最適設定)を選択することができる。動作614では、トレーニング・データは、通常は、重複排除(de-duplication)、正規化、および順序ランダム化を含めて、肩よりの原因を低減するように準備してもよい。動作616において、機械学習モデルのためのゲートの初期重みをランダム化してもよい。動作618において、MLモデルは、入力データ・ベクトルのセットを使用して出力を予測するのに使用してもよく、その予測は、ラベル付けされたデータと比較される。次いで、誤差(例えば、予測値とラベル付きデータとの差)は、ゲート重みを更新するために、動作620において使用される。このプロセスは、トレーニング・データが使い果たされるか、MLモデルが許容できるレベルの正解率または適合率あるいはその両方に達するまで、反復ごとに重みを更新して繰り返される。動作622において、結果として得られるモデルは、任意選択で、その性能を検証および試験するために、以前に未評価だったデータと比較してもよい。動作624において、結果として得られるモデルは、クラウド・コンピューティング環境50内のノイズ低減サービス496にロードされ、ユーザ録音を分析するために使用することができる。
【0064】
会議システム
図7は、いくつかの実施形態と整合する、動作中の会議システム700のフローチャートである。動作705において、電話会議への複数の参加者が、例えば、ユーザ名およびパスワードを用いて、会議システム700に登録またはログインあるいはその両方を行う。動作710において、会議システム700は、参加者の各々に関連する現在の音響モデル499についてデータベース482に問い合わせることになる。1人または複数の参加者のためのモデルが存在しない場合(711:NO)、システムは、動作712において、話者固有音響モデルの構築を開始するために、その1人または複数の参加者に、自らのスピーチの生オーディオ・データを録音するように促してもよい。任意選択で、システムはまた、参加者に、オペレーション712において、この電話会議のためにユニバーサル・モデル(すなわち、多種多様な音声および言語を分離するために作成されたモデル)を使用する選択肢を与えてもよく、これは、参加者がカスタマイズされたモデルを作成する時間または機器あるいはその両方を有していない場合に望ましい場合がある。参加者が複数のカスタマイズされたモデルを作成した場合、システムは、動作713において、この呼出し(call)に使用するモデルを選択するよう参加者に促してもよい。
【0065】
その後、参加者の1人が話し始めることができる。それらのユーザ・デバイス403は、動作715において、それらの音を録音し、動作720において録音を元のオーディオ・ストリームに変換し、動作725において、元のオーディオ・ストリームを会議モジュール480に送信することができる。それに応答して、会議システム700は、その特定の話者(動作705において識別される)に対してカスタマイズされた音響モデルを、受信されたオーディオ・ストリームに適用して、動作730において、最適化されたオーディオ・ストリーム(例えば、ユーザの声が増幅されるか、または任意のバックグラウンド・ノイズが抑制されるか、あるいはその両方がなされたもの)を生成する。次いで、会議システム700は、最適化されたオーディオ・ストリームを、動作735において、動作中の電話会議の他の参加者に送信することができる。これらの実施形態は、「簡素な通常の電話システム」ハンドセットなどの、任意のユーザ・デバイス403と共に使用することができるので、望ましい場合がある。
【0066】
代替的に、いくつかの実施形態では、ユーザ・デバイス403の一部または全部は、ローカルで(例えば、ユーザ・デバイス403内のプロセッサによって)カスタマイズされた音響モデルを元のオーディオ・ストリームに適用し、次いで、(元のオーディオ・ストリームではなく)最適化されたオーディオ・ストリームを、動作725において会議システム700に送信する。会議システム700は、次いで、動作735に直接進み、最適化されたオーディオ・ストリームを他の参加者に再送信することができる。これらの実施形態は、任意の会議システム700と共に使用することができるので望ましい場合がある。
【0067】
動作715~735は、会議システム700によって、ユーザ・デバイス403によって、または両方の組合せによって、電話会議の持続時間中に参加者が話すたびに、繰り返すことができる。
【0068】
コンピュータ・プログラム製品
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せである。コンピュータ・プログラム製品には、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有する、コンピュータ可読記憶媒体が含まれる。
【0069】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持および記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、例えば、それに限定されるものではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意、適切な組合せであってもよい。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下を含む:携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、イレーザブル・プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、携帯型コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック(登録商標)、フロッピー(登録商標)ディスク、そこに記録された命令を有する、パンチ・カードまたは溝の中の隆起構造などの機械的に符号化されたデバイス、および前記のものの任意、適切な組合せ。本明細書で使用される場合には、コンピュータ可読記憶媒体は、それ自体が一過性の信号、例えば、電波または他の自由に伝播する電磁波、導波路または他の伝送媒体を伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを介して伝送される電気信号であると解釈されるべきではない。
【0070】
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードするか、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたはワイヤレス・ネットワーク、あるいはそれらの組合せを介して、外部コンピュータまたは外部記憶デバイスへダウンロードすることができる。ネットワークには、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバ、あるいはそれらの組合せが含まれる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶させるために、コンピュータ可読プログラム命令を転送する。
【0071】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、またはSmalltalk(登録商標)、C++、などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードのいずれかである。コンピュータ可読プログラム命令は、スタンド・アロンのソフトウェア・パッケージとして、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、かつ部分的にリモート・コンピュータ上で、または完全にリモート・コンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続されてもよいし、または(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータへの接続がなされてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。
【0072】
本明細書において、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図、あるいはその両方を参照して、本発明の態様が記述される。フローチャート図またはブロック図、あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図、あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施できることが理解されよう。
【0073】
これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定される機能/動作を実施する手段を作り出すように、コンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサに提供されて、マシンを生成するものであってもよい。これらのコンピュータ可読プログラム命令はまた、その中に記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定された機能/動作の態様を実施する命令を含む製品を構成するように、コンピュータ、プログラム可能なデータ処理装置、またはその他のデバイス、あるいはそれらの組合せに特定の方式で機能するように指示することができる、コンピュータ可読記憶媒体に記憶されてもよい。
【0074】
コンピュータ可読プログラム命令はまた、コンピュータ、その他のプログラム可能な装置、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図、あるいはその両方の1つまたは複数のブロックに指定された機能/動作を実施するように、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードされて、コンピュータ、その他のプログラム可能装置、またはその他のデバイス上で一連の動作ステップを実行させて、コンピュータ実施プロセスを生成してもよい。
【0075】
図のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表わしてもよい。いくつかの代替的な実装形態では、ブロックに記された機能は、図に記された順序から外れて起こり得る。例えば、連続して示される2つのブロックは、実際には、1つのステップとして達成され、部分的または全体的に時間的に重複する方式で、同時に、実質的に同時に実行されてもよいし、関与する機能に応じて、ブロックが逆の順序で実行される場合があってもよい。ブロック図またはフローチャート図、あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図、あるいはその両方におけるブロックの組合せは、指定された機能または動作を実行するか、または特殊目的ハードウェア命令とコンピュータ命令の組合せを実施する、特殊目的ハードウェア・ベースのシステムによって実装できることにも留意されたい。
【0076】
一般
この説明において使用される任意の特定のプログラムの命名は、単に便宜上のものであり、したがって、本発明は、そのような命名法によって識別または暗示されるか、あるいはその両方である、任意の特定の用途における使用のみに限定されるべきではない。したがって、例えば、本発明の実施形態を実施するために実行されるルーチンは、オペレーティング・システムの一部として実装されるか、または特定のアプリケーション、コンポーネント、プログラム、モジュール、オブジェクトまたは命令のシーケンスの一部として実装されるかにかかわらず、「プログラム」、「アプリケーション」、「サーバ」、または他の意味のある命名として、参照されている可能性がある。実際に、他の代替的なハードウェア環境またはソフトウェア環境、あるいはその両方は、本発明の範囲から逸脱することなく使用され得る。
【0077】
したがって、本明細書に記載される実施形態は、あらゆる点で例示であって限定的ではないとみなされること、および本発明の範囲を決定するために添付の特許請求の範囲が参照されることが望まれる。
【手続補正書】
【提出日】2023-06-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ会話中の単一の音声を増幅するためにコンピューティング・デバイスを使用する方法であって、
コンピューティング・デバイスによって、ユーザからのスピーチのオーディオ・サンプルを受信することと、
前記コンピューティング・デバイスによって、前記オーディオ・サンプルに基づいて前記ユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することと、
オーディオ会話中に、前記ユーザによるライブ・スピーチを含むライブ・オーディオビジュアル・ストリームを受信することであって、前記ライブ・オーディオビジュアル・ストリームは、バックグラウンド・ノイズを含む、前記受信することと、
前記コンピューティング・デバイスによって、前記バックグラウンド・ノイズを増幅することなく、前記ライブ・オーディオビジュアル・ストリーム中の前記ライブ・スピーチを選択的に増幅するために前記ユーザ固有音響モデルを使用することと
を含む、方法。
【請求項2】
前記コンピューティング・デバイスによって、前記ライブ・オーディオビジュアル・ストリーム中の前記バックグラウンド・ノイズを選択的に抑制するために前記ユーザ固有音響モデルを使用することをさらに含む、請求項1に記載の方法。
【請求項3】
前記ユーザ固有音響モデルは、電話会議ソフトウェアに対するプラグインである、請求項1
または2に記載の方法。
【請求項4】
複数のユーザ固有音響モデルを生成することをさらに含み、各ユーザ特有音響モデルは、前記電話会議ソフトウェアの複数のユーザの各々の1人に対するものである、請求項3に記載の方法。
【請求項5】
実質的にバックグラウンド・ノイズのない環境における前記ユーザからの前記オーディオ・サンプルを収集することと、
前記ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用することと
をさらに含む、請求項1
~4のいずれか1項に記載の方法。
【請求項6】
前記ユーザ固有音響モデルを生成するためにトレーニング済の機械学習モデルを使用することをさらに含む、請求項5に記載の方法。
【請求項7】
事前トレーニング済の音響モデルを使用してユーザの音声を選択的に増幅するためのコンピュータ・
プログラムであっ
て、コンピュータに、
既存の音声サンプルからユーザのための音声データを抽出することと、
前記音声データから前記ユーザのための事前トレーニング済の音響モデルを作成することと、
電話会議からのオーディオ・ストリームを分析することと、
前記オーディオ・ストリームにおけるバックグラウンド・ノイズの存在を検出することと、
前記ユーザの音声を選択的に増幅し、前記バックグラウンド・ノイズは増幅しないように、前記オーディオ・ストリームに前記事前トレーニング済の音響モデルを適用することと
を行わせ
るためのコンピュータ・
プログラム。
【請求項8】
前記コンピュータに、前記オーディオ・ストリームからの前記バックグラウンド・ノイズを選択的に抑制するために前記事前トレーニング済の音響モデルを使用する
ことをさらに行わせる、請求項7に記載のコンピュータ・
プログラム。
【請求項9】
前記事前トレーニング済の音響モデルは電話会議ソフトウェアに対するプラグインである、請求項7
または8に記載のコンピュータ・
プログラム。
【請求項10】
前記コンピュータに、前記電話会議ソフトウェアの複数のユーザのうちの各々の1人のための複数のユーザ固有音響モデルを生成する
ことをさらに行わせる、請求項9に記載のコンピュータ・
プログラム。
【請求項11】
前記コンピュータに、
実質的にバックグラウンド・ノイズがない環境内の前記ユーザからオーディオ・サンプルを収集する
ことと、
ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用する
ことと
をさらに
行わせる、請求項7
~10のいずれか1項に記載のコンピュータ・
プログラム。
【請求項12】
前記コンピュータに、前記ユーザに対して複数のユーザ固有音響モデルを生成する
ことをさらに
行わせ、前記複数のユーザ固有音響モデルの第1のユーザ固有音響モデルは、第1の言語におけるスピーチに適合されており、前記複数のユーザ固有音響モデルの第2のユーザ固有音響モデルは、第2の言語におけるスピーチに適合されている、請求項7
~11のいずれか1項に記載のコンピュータ・
プログラム。
【請求項13】
前記コンピュータに、前記ユーザに対する複数のユーザ固有音響モデルを生成する
ことをさら
に行わせ、前記複数のユーザ固有音響モデルの第1のユーザ固有音響モデルは、前記ユーザの通常の体調に適合されており、前記複数のユーザ固有音響モデルの第2のユーザ固有音響モデルは、前記ユーザの現在の体調に適合されている、請求項7
~12のいずれか1項に記載のコンピュータ・
プログラム。
【請求項14】
前記コンピュータに、
コンピューティング・デバイスによって、実質的にバックグラウンド・ノイズのない環境からユーザからのスピーチのオーディオ・サンプルを受信することと、
前記オーディオ・サンプルから前記事前トレーニング済の音響モデルを生成するためにトレーニング済の機械学習モデルを使用することと
をさらに
行わせる、請求項7
~13のいずれか1項に記載のコンピュータ・
プログラム。
【請求項15】
オーディオ会話中の単一の音声を増幅するためのシステムであって、プログラム命令を実行するように構成されたプロセッサを備え、前記プログラム命令は、プロセッサ上で実行されると、前記プロセッサに、
ユーザからのスピーチのオーディオ・サンプルを受信することと、
前記オーディオ・サンプルに基づいて、前記ユーザによるスピーチの強調のためのユーザ固有音響モデルを生成することと、
ライブ・オーディオビジュアル・ストリームを受信することであって、前記ライブ・オーディオビジュアル・ストリームは、オーディオ会話中の前記ユーザによるライブ・スピーチを含むとともに、バックグラウンド・ノイズを含む、前記受信することと、
前記バックグラウンド・ノイズを増幅することなく、前記ライブ・オーディオビジュアル・ストリーム中の前記ライブ・スピーチを選択的に増幅するように、前記ユーザ固有音響モデルを使用することと
を行わせる、システム。
【請求項16】
前記ライブ・オーディオビジュアル・ストリーム中の前記バックグラウンド・ノイズを選択的に抑制するために前記ユーザ固有音響モデルを使用するプログラム命令をさらに含む、請求項15に記載のシステム。
【請求項17】
前記ユーザ固有音響モデルは、電話会議ソフトウェアに対するプラグインである、請求項15
または16に記載のシステム。
【請求項18】
複数のユーザ固有音響モデルを生成するプログラム命令をさらに含み、各ユーザ固有音響モデルは、前記電話会議ソフトウェアの複数のユーザの各々の1人に対するものである、請求項17に記載のシステム。
【請求項19】
実質的にバックグラウンド・ノイズなしの環境における前記ユーザからのオーディオ・サンプルを収集するプログラム命令と、
前記ユーザ固有音響モデルを生成するために前記オーディオ・サンプルを使用するプログラム命令と
をさらに含む、請求項15
~17のいずれか1項に記載のシステム。
【請求項20】
前記ユーザ固有音響モデルを生成するためにトレーニング済の機械学習モデルを使用するプログラム命令をさらに含む、請求項19に記載のシステム。
【国際調査報告】