(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-01
(54)【発明の名称】コンピューティング・システム上での強化された音声再生
(51)【国際特許分類】
G10L 13/08 20130101AFI20240125BHJP
H04N 7/15 20060101ALI20240125BHJP
G10L 15/10 20060101ALI20240125BHJP
G06F 3/16 20060101ALI20240125BHJP
【FI】
G10L13/08 110Z
H04N7/15
G10L15/10 400Z
G06F3/16 650
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023544153
(86)(22)【出願日】2022-01-05
(85)【翻訳文提出日】2023-07-20
(86)【国際出願番号】 CN2022070394
(87)【国際公開番号】W WO2022156539
(87)【国際公開日】2022-07-28
(32)【優先日】2021-01-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】エロール、ステファニア
(72)【発明者】
【氏名】デ グレゴリオ、マルコ
(72)【発明者】
【氏名】コルッシ、アゴスティーノ
(72)【発明者】
【氏名】ガルガロ、ジャンルカ
(72)【発明者】
【氏名】マトローネ、サルヴァトーレ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA44
5C164PA46
5C164VA09P
(57)【要約】
オーディオ信号の音セグメントからテキスト・セグメントを認識することに基づく音声再生を強化するためのアプローチ。強化されたテキスト・セグメントは、品質指標が閾値レベルに達しない任意のテキスト・セグメントから生成され、強化された音声セグメントは、強化されたテキスト・セグメントから合成される。強化された音声セグメントに基づく強化された音セグメントを含む強化された音が再生される。
【特許請求の範囲】
【請求項1】
コンピューティング・システム上で音声再生を強化するための方法であって、
音声を含む音を表すオーディオ信号を前記コンピューティング・システムによって受け取ることと、
前記オーディオ信号からテキストを前記コンピューティング・システムによって認識することであって、前記テキストが、前記音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む、前記認識することと、
前記テキスト・セグメントを前記認識することの対応する品質指標を前記コンピューティング・システムによって判定することと、
品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを前記コンピューティング・システムによって生成することであって、前記強化されたテキスト・セグメントが、音セグメントの前記対応するシーケンスに関する追加の情報に応じて生成される、前記生成することと、
前記強化されたテキスト・セグメントから、対応する強化された音声セグメントを前記コンピューティング・システムによって合成することと、
品質指標が前記閾値レベルに達する前記テキスト・セグメントに対する音セグメントの前記対応するシーケンスと、品質指標が前記閾値レベルに達しない前記テキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を前記コンピューティング・システムによって再生することであって、前記強化された音セグメントが、前記対応する強化された音声セグメントに基づく、前記再生することと
を含む、方法。
【請求項2】
前記音声の文脈に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記テキストに応じて前記音声の前記文脈を前記コンピューティング・システムによって判定すること
をさらに含む、請求項2に記載の方法。
【請求項4】
前記音声の前記文脈に応じて1つまたは複数の文脈語彙を前記コンピューティング・システムによって選択することと、
前記文脈語彙に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項2に記載の方法。
【請求項5】
前記音セグメントおよび前記テキスト・セグメントが、前記音声の対応する単語または休止を表す、請求項1に記載の方法。
【請求項6】
前記音セグメントから対応する背景セグメントを前記コンピューティング・システムによって抜き出すことであって、前記背景セグメントが、前記音声とは異なる背景を表す、前記抜き出すことと、
前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項1に記載の方法。
【請求項7】
前記強化されたテキスト・セグメントの対応するさらなる品質指標を前記コンピューティング・システムによって判定することと、
前記対応する強化されたテキスト・セグメントの前記さらなる品質指標に応じて、前記対応する強化された音声セグメントと背景セグメントとを前記混合することの対応する混合率を前記コンピューティング・システムによって設定することと、
前記対応する混合率に応じて、前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項6に記載の方法。
【請求項8】
前記対応する混合率の傾向にさらに基づいて、前記対応する混合率を前記コンピューティング・システムによって設定すること
をさらに含む、請求項7に記載の方法。
【請求項9】
前記オーディオ信号からの前記テキストを前記認識することの現在の品質、品質傾向、または反復の数のうちの少なくとも1つに応じて、前記品質指標を前記コンピューティング・システムによって判定すること
をさらに含む、請求項1に記載の方法。
【請求項10】
前記音が入ったマルチメディア・コンテンツを表すマルチメディア信号を前記コンピューティング・システムによって受け取ることと、
前記マルチメディア信号から前記オーディオ信号を前記コンピューティング・システムによって抜き出すことと
をさらに含む、請求項1に記載の方法。
【請求項11】
テレコミュニケーション・ネットワークを介したストリーミングで、前記オーディオ信号を前記コンピューティング・システムによって受け取ること
をさらに含む、請求項1に記載の方法。
【請求項12】
前記テレコミュニケーション・ネットワークを介して通話中に、前記オーディオ信号を前記コンピューティング・システムによって受け取ること
をさらに含む、請求項11に記載の方法。
【請求項13】
音声再生を強化するためのコンピュータ・プログラム製品であって、1つまたは複数のコンピュータ可読ストレージ媒体にプログラム命令をまとめて格納した前記1つまたは複数のコンピュータ可読ストレージ媒体を備え、前記プログラム命令が、
音声を含む音を表すオーディオ信号を受け取ることと、
前記オーディオ信号からテキストを認識することであって、前記テキストが、前記音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む、前記認識することと、
前記テキスト・セグメントを前記認識することの対応する品質指標を判定することと、
品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを生成することであって、前記強化されたテキスト・セグメントが、音セグメントの前記対応するシーケンスに関する追加の情報に応じて生成される、前記生成することと、
前記強化されたテキスト・セグメントから、対応する強化された音声セグメントを合成することと、
品質指標が前記閾値レベルに達する前記テキスト・セグメントに対する音セグメントの前記対応するシーケンスと、品質指標が前記閾値レベルに達しない前記テキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を再生することであって、前記強化された音セグメントが、前記対応する強化された音声セグメントに基づく、前記再生することと
を含む方法をコンピューティング・システムに実施させるために前記コンピューティング・システムによって読込み可能である、コンピュータ・プログラム製品。
【請求項14】
前記音声の文脈に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成すること
をさらに備える、請求項13に記載のコンピュータ・プログラム製品。
【請求項15】
前記テキストに応じて前記音声の前記文脈を前記コンピューティング・システムによって判定すること
をさらに備える、請求項14に記載のコンピュータ・プログラム製品。
【請求項16】
前記音声の前記文脈に応じて1つまたは複数の文脈語彙を前記コンピューティング・システムによって選択することと、
前記文脈語彙に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成することと
をさらに備える、請求項14に記載のコンピュータ・プログラム製品。
【請求項17】
前記音セグメントおよび前記テキスト・セグメントが、前記音声の対応する単語または休止を表す、請求項13に記載のコンピュータ・プログラム製品。
【請求項18】
前記音セグメントから対応する背景セグメントを前記コンピューティング・システムによって抜き出すことであって、前記背景セグメントが、前記音声とは異なる背景を表す、前記抜き出すことと、
前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに備える、請求項13に記載のコンピュータ・プログラム製品。
【請求項19】
前記強化されたテキスト・セグメントの対応するさらなる品質指標を前記コンピューティング・システムによって判定することと、
前記対応する強化されたテキスト・セグメントの前記さらなる品質指標に応じて、前記対応する強化された音声セグメントと背景セグメントとを前記混合することの対応する混合率を前記コンピューティング・システムによって設定することと、
前記対応する混合率に応じて、前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに備える、請求項18に記載のコンピュータ・プログラム製品。
【請求項20】
音声再生を強化するためのシステムであって、
音声を含む音を表すオーディオ信号を受け取るための回路構成と、
前記オーディオ信号からテキストを認識するための回路構成であって、前記テキストが、前記音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む、前記回路構成と、
前記テキスト・セグメントを前記認識することの対応する品質指標を判定するための回路構成と、
品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを生成するための回路構成であって、前記強化されたテキスト・セグメントが、音セグメントの前記対応するシーケンスに関する追加の情報に応じて生成される、前記回路構成と、
前記強化されたテキスト・セグメントから、対応する強化された音声セグメントを合成するための回路構成と、
品質指標が前記閾値レベルに達する前記テキスト・セグメントに対する音セグメントの前記対応するシーケンスと、品質指標が前記閾値レベルに達しない前記テキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を再生するための回路構成であって、前記強化された音セグメントが、前記対応する強化された音声セグメントに基づく、前記回路構成と
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報技術分野に関する。より詳細には、本開示は、音声再生に関する。
【背景技術】
【0002】
コンピューティング・システムは、一般に、種々のフォーマットの(デジタル)コンテンツを出力するために使用される。特に、コンピューティング・システムのユーザに情報を伝えるための最も効果的なフォーマットのうちの1つは音声であり、この目的のために、ほとんどのコンピューティング・システムには、対応するオーディオ信号から音声を含む音を再生するために、ラウドスピーカなどのデバイスが備えられている。
【0003】
典型的な例は、場合によっては、ビデオ、画像、データ、文書などのマルチメディア・コンテンツをさらに共有して、テレコミュニケーション・ネットワークを介して(参加者と呼ばれる)対応するコンピューティング・システムの2人以上のユーザ間の生の音交換をそれぞれ提供するために使用されるボイス通話または会議通話であり、一般に、各ボイス/会議通話は、参加者が地理的に離れた遠隔地から通信できるように、(例えば、VOIP技術を活用することによって)インターネットを介して実施される。通話は、(共通の物理的な場所に到達するために参加者による長距離の移動を一般的には必要とする対面でのミーティングを必要とせずに)時間および費用効率の良い方式で、共通の関心があるトピックを論じることを可能にし、これは、多くのオフィスにおけるスマート・ワーキングの採用が広範囲に及んできたことにより、最近、さらに重要になってきた。
【0004】
各通話の有効性は、(通話の他の参加者によって受け取られた対応する音に含まれる)通話の各参加者の音声再生の品質に著しく依存し、実際には、音声再生の完全性および忠実度は、通話における各参加者の発言が、彼らに耳を傾けている他の参加者すべてによって理解されることを保証するのに重要である。
【0005】
それでも、通話における音声再生に、いくつかの因子が不利に影響を及ぼすことがある。例えば、各参加者が発言している背景に存在する雑音が、彼らの音声と共に、他の参加者に伝送される対応する音に溶け込み、この雑音は、音声の内容の理解を妨げることがある。したがって、音から雑音を(少なくとも部分的に)除去するために、雑音低減技術が使用され得る。特に、参加者の居場所における雑音の生成を低減させるために、(防音室などの)受動的な技術が使用されることがあるが、これらの技術は、(プライベートな状況など)多くの場面で実施するには、不可能ではないにしても、非常に高価であり難しい。伝送される音、または受け取られる音に含まれる雑音を低減させるために、能動的な技術が使用されることがある。例えば、参加者の居場所における音に含まれる雑音を低減させるために、耳を傾けている参加者の居場所の音に含まれる雑音を低減させるための発言技術もしくはフィルタリング技術またはその両方の技術である、相殺的干渉技術を適用することができる。
【0006】
いずれにしても、受け取られた音声の品質は、対応するオーディオ信号を伝送するために使用されるテレコミュニケーション・ネットワークの性能によって有害な影響を受けることがある。実際には、テレコミュニケーション・ネットワークの良くない性能(例えば、低速、高トラフィックなど)が、音声の品質を悪化させるアーチファクトを生成し、例えば、音声は、雑音が入ったもの、歪んだもの、断続的なものなどになり得る。
【発明の概要】
【0007】
本開示の基本的な理解をもたらすために、本開示の簡単な概要が本明細書で提示されるが、本概要の唯一の目的は、本開示の以下のより詳細な説明の前置きとして簡単な形で本開示のいくつかの概念を紹介することであり、本開示の主要な要素の識別情報としても、本開示の範囲の正確な描写としても、解釈されるべきではない。
【0008】
一般的に、本開示は、音声から認識された強化されたテキストからの音声を合成するというアイデアに基づく。
【0009】
特に、実施形態は、音声再生を強化するための方法を提供する。方法は、オーディオ信号の音セグメントからテキスト・セグメントを認識することを含む。強化されたテキスト・セグメントは、品質指標が閾値レベルに達しない任意のテキスト・セグメントから生成され、強化された音声セグメントは、強化されたテキスト・セグメントから合成される。強化された音声セグメントに基づく強化された音セグメントを含む強化された音が再生される。
【0010】
方法を実行するためのコンピュータ・プログラムを、さらなる態様が提供する。
【0011】
対応するコンピュータ・プログラム製品を、さらなる態様が提供する。
【0012】
対応するシステムを、さらなる態様が提供する。
【0013】
より詳細には、本開示の1つまたは複数の態様が独立請求項において説明され、その有利な特徴が従属請求項において説明され、特許請求の範囲のすべての文言が、参照により本明細書に一語一句そのままに組み込まれる(任意の固有の態様を参照しながら提供される任意の有利な特徴が、あらゆる他の態様に必要な変更を加えて適用される)。
【0014】
本開示、ならびに、本開示のさらなる特徴および利点は、添付の図面と共に読まれることになる非制限的指示として純粋に示された本開示の以下の詳細な説明を参照することによって最もよく理解されるであろう(簡潔さのために、対応する要素は、等しいまたは類似の参照記号で表され、対応する要素の説明は繰り返されず、各エンティティの名前は、一般に、値、内容、および表現のような、各エンティティのタイプと各エンティティのプロパティ両方を表すために使用される)。
【図面の簡単な説明】
【0015】
【
図1A】本開示の実施形態による、解決策の一般的な原理を示す図である。
【
図1B】本開示の実施形態による、解決策の一般的な原理を示す図である。
【
図1C】本開示の実施形態による、解決策の一般的な原理を示す図である。
【
図1D】本開示の実施形態による、解決策の一般的な原理を示す図である。
【
図2】本開示の実施形態による解決策が実践され得るコンピューティング・インフラストラクチャの概略ブロック図である。
【
図3】本開示の実施形態による解決策を実行するために使用され得る主なソフトウェア構成要素を示す図である。
【
図4A】本開示の実施形態による解決策の実行に関する活動のフローを表現したフローチャートである。
【
図4B】本開示の実施形態による解決策の実行に関する活動のフローを表現したフローチャートである。
【発明を実施するための形態】
【0016】
特に
図1A~
図1Dを参照すると、本開示の実施形態の一般的な原理が示されている。
【0017】
図1Aから始めると、コンピューティング・システムのユーザ(参加者)は、テレコミュニケーション・ネットワークを介した通話(例えば、互いにリモートになるように、全体的に地理的に離れた複数の参加者間の会議通話)に参加することができる。通話中、参加者は、発言しても耳を傾けてもよく、後者のケースでは、コンピューティング・システムは、発言(すなわち、英語など、コミュニティによって理解される構造化システムによって定義された人間言語でのボイス通信)の際の他の参加者の音声を含む音(すなわち、振動によって生成された圧力波)を表す(コンピューティング・システムによって読取り可能なデジタル形式の)オーディオ信号を受け取る。(人間によって読取り可能な形式の音声を表す)テキストは、オーディオ信号から認識され得る。ここで、テキストは、(単語および休止などの)テキスト・セグメントのシーケンスT
i(i=1…N)を含むことができ、テキスト・セグメントのシーケンスT
iは、音の音声セグメントの対応するシーケンスS
iから認識され得る。同時に、テキスト・セグメントT
iの対応する品質指標Q
iが判定され得、品質指標Q
iは、認識された音声セグメントS
iを表すための、対応するテキスト・セグメントT
iの妥当性を示すことができる。
【0018】
図1Bに移ると、本開示の実施形態によって、品質指標Q
iが閾値レベルに達していない(対応するテキスト・セグメントT
iを表すには品質指標Q
iの妥当性が低すぎることを意味する)(図で強調された)任意のテキスト・セグメントT
iから、対応する強化されたテキスト・セグメントET
iを生成することができ、強化されたテキスト・セグメントET
iを、例えば、テキストから推察される音声の文脈といった、対応する音声セグメントS
iに関する追加の情報に応じて生成することができる。
【0019】
図1Cに移ると、対応する強化された音声セグメントES
iを、強化されたテキスト・セグメントET
iから合成することができる。
【0020】
図1Dに移ると、強化された音を再生することができる。強化された音は、(例えば、その音声を、対応するセグメントS
iの背景と混合することによって取得された)強化された音声セグメントES
iに基づき得る音セグメントS
iおよび強化された音セグメントを含むことができる。そして特に、品質指標Q
iが閾値レベルに達しているテキスト・セグメントT
iに対する音セグメントS
iを再生することができ、品質指標Q
iが閾値レベルに達していないテキスト・セグメントT
iに対する(強化された音声セグメントES
iに基づく)強化された音セグメントを再生することができる。したがって、強化された音は、(理解可能なとき)参加者の(元の)声を提供することができるが、参加者の声が理解しにくくなったときはいつでも、参加者の声は、参加者の声の推察される内容を再生する対応する合成ボイスによって、置き換えられ得る。
【0021】
上述の実施形態は、通話品質を著しく向上させることができる。実際には、このようにして、(背後の追加された雑音、またはテレコミュニケーション・ネットワークの良くない性能のどちらかによる)雑音が入ったもの、歪んだもの、断続的なものなどにする、音における任意のアーチファクトの効果を除去すること(または、少なくとも実質的に減衰させること)が可能である。したがって、参加者が音声を理解することはさらに容易となり得て、そしてその結果、要点を聞き損なうリスクが低減されつつ、参加者が音声に耳を傾けること、および次いでその内容に集中することは、さらに簡単なものになり得る。
【0022】
向上した通話品質は、(例えば、音声の悪い品質の部分または完全に失われた部分を再送信するために)テレコミュニケーション・ネットワークを介した追加の情報交換の必要性をなくすこと(または少なくとも実質的に低減させること)も可能である。そしてこのことは、対応するネットワーク・リソースの消費量、およびテレコミュニケーション・ネットワークの性能の可能な悪化を制限することができる(すべてのネットワーク・ユーザに有益な効果を伴う)。
【0023】
図2をここで参照すると、本開示の実施形態が実践され得るコンピューティング・インフラストラクチャ200の概略ブロック図が示されている。
【0024】
コンピューティング・インフラストラクチャ200は、通話の参加者によって使用される複数のクライアント・コンピューティング・システム、すなわち端的にはクライアント205と、通話を管理するサーバ・コンピューティング・システム、すなわち端的にはサーバ210とを備える。例えば、クライアント205は、参加者のパーソナル・コンピュータ(PC)であり、サーバ210は、対応する通話サービスを提供するサービス・プロバイダのデータ・センタで実行される。クライアント205およびサーバ210は、これらの間で通信するための(例えば、インターネットに基づく)テレコミュニケーション・ネットワーク215に接続される。
【0025】
上述のコンピューティング・システムのそれぞれ(すなわち、クライアント205およびサーバ210)は、(コンピューティング・システム205、210のタイプに応じて適切にスケーリングされたアーキテクチャを有する)1つまたは複数のレベルを有するバス構造220を通じてコンピューティング・システム205、210の間で接続されたいくつかのユニットを備える。特に、1つ以上のマイクロプロセッサ(μP)225が、コンピューティング・システム205、210の論理能力を提供し、不揮発性メモリ(ROM)230が、コンピューティング・システム205、210のブートストラップのためのベーシック・コードを格納し、揮発性メモリ(RAM)235が、マイクロプロセッサ225によって作業メモリとして使用される。コンピューティング・システム205、210には、プログラムおよびデータを格納するための大容量メモリ240(例えば、各クライアント205のためのSSD、およびサーバ210のための対応するデータ・センタのストレージ・デバイス)が備えられている。その上、コンピューティング・システム205、210は、周辺機器、すなわち入出力(I/O)ユニット245のためのいくつかのコントローラを備える。例えば、本開示に関する限り、各クライアント205の周辺機器245は、テレコミュニケーション・ネットワーク215に接続するためのネットワーク・アダプタ(NIC)、通話の対応する参加者の(入力された)音声を含む(入力された)音を記録するためのマイクロホン、通話の他の参加者の(出力された)音声を含む(出力された)音を再生するためのラウドスピーカ、および、(USBタイプのものなどの)取外し可能ストレージ・ユニットを読み書きするためのドライブを含み、その一方で、サーバ210の周辺機器245は、サーバ210をデータ・センタにつなぎ、次いで、サーバ210の制御のためにサーバ210をデータ・センタのコンソール(例えば、USBタイプのものなどの、取外し可能なストレージ・ユニットを読み書きするためのドライブも備えたパーソナル・コンピュータ)に、およびテレコミュニケーション・ネットワーク215にアクセスするためのデータ・センタのスイッチ/ルータ・サブ・システムに、接続するためのネットワーク・カードを含む。
【0026】
図3をここで参照すると、本開示の実施形態を実行するために使用され得る主なソフトウェア構成要素が示されている。
【0027】
特に、ソフトウェア構成要素のすべて(プログラムおよびデータ)が、参照300で全体として表されている。ソフトウェア構成要素300は、典型的には、大容量メモリに格納され、プログラムが動いているとき、オペレーティング・システムおよび他のアプリケーション・プログラム(図示せず)と一緒に、各クライアント205(図には1つだけ示されている)の作業メモリに(少なくとも部分的に)ロードされる。プログラムは、最初に、例えば、取外し可能ストレージ・ユニットから、またはテレコミュニケーション・ネットワークから、大容量メモリにインストールされる。この点に関して、各プログラムは、コードのモジュール、セグメント、または一部分でもよく、これらは、指定の論理機能を実行するための1つまたは複数の実行可能命令を含む。
【0028】
ネットワーク・ドライブ305は、ネットワーク・アダプタを駆動し、マイクロホン・ドライブ310は、マイクロホンを駆動し、ラウドスピーカ・ドライブ315は、ラウドスピーカを駆動する。通話エージェント320は、通話の参加者としてのクライアント205のユーザのために、クライアント205上で進行中の各通話を制御する。通話エージェント320は、通話を管理するためにサーバ上で動いている通話マネージャ(図示せず)と通信するためにネットワーク・ドライブ305を活用する。通話エージェント320は、その参加者の任意の入力された音声を含む、クライアント205の所在地における入力された音を、通話マネージャを介して他の参加者のクライアントに伝送されることになる対応する(入力された)オーディオ信号に登録するために、マイクロホン・ドライブ310を活用する。通話エージェント320は、再生バッファ325に書き込み、再生バッファ325は、ラウドスピーカ・ドライバ315によって読み取られる。再生バッファ325は、通話マネージャを介してその任意の出力された音声を含む、他の参加者のクライアントから受け取られた出力音を表す、(出力された)オーディオ信号を格納するために使用され、再生バッファ325は、出力されたオーディオ信号の簡単な伝送問題のケースでも割り込むことなく出力音の再生を可能にするように、(例えば、出力音の5~10分の再生に対応する容量を有する)出力されたオーディオ信号を一時的に格納するためのFIFO構造を有する。
【0029】
本開示の実施形態では、通話エージェント320は、品質強化器360を活用し、品質強化器360は、上述のような、(通話の他の参加者の)出力された音声の再生品質を強化するために使用される。この目的のために、品質強化器360は、音声認識器330(例えば、IBM CorporationによるWatson speech-to-text)を活用し、音声認識器330は、(出力されたオーディオ信号で表された出力音に含まれる)出力された音声からテキストを認識するために使用される。この目的のために、音声認識器330は、一般語彙335gおよび複数の文脈語彙335cを読み取る。一般語彙335gは、汎用的なものであり、文脈語彙335cは、代わりに、情報技術、電子機器、マーケティング、財務、スポーツなど、種々のコンテキストにとって固有のものである(各コンテキストが、1つまたは複数の対応する文脈語彙335cを有する)。
【0030】
各(一般/文脈)語彙335g、335cは、音声の中で認識され得る単語の対応するセットを定義し(1つ1つが、対応する言語の意味から抜き出した、発せられ得る音素の最小シーケンスで定義される)、各単語に対して、語彙335g、335cは、(アルファベットの文字などの1つまたは複数の書記素によって定義された)その書かれた表現、および、(IPA表現など、その音素によって定義された)その1つまたは複数の発音を指示する。音声認識器330は、テキスト・ファイル340に書き込み、テキスト・ファイル340は、認識されたテキストの(デジタル形式の)表現(または、出力音の再生の最後の30~60分間など、少なくともその最も新しい部分)を格納する。(例えば、ニューラル・ネットワークに基づく)認知エンジン345が、対応するテキストから通話の文脈を判定する。認知エンジン345は、テキスト・ファイル340を読み取る。その上、認知エンジン345は、品質強化器360によって読み取られる文脈レジスタ350に書き込み、文脈レジスタ350は、通話の文脈の指示を、通話の文脈を定義する1つまたは複数のメタデータと一緒に格納する。品質強化器360は、音声合成器355(例えば、その商標であるIBM CorporationによるWatson text-to-speech)をさらに活用し、音声合成器355は(人間の声を模倣した対応する音を人工的に作り出すことによって)、強化されたテキストから、強化された音声を合成するために使用される。
【0031】
図4A~
図4Bをここで参照すると、本開示の実施形態の実施に関する活動のフローを表現したフローチャートが示されている。この点に関して、各ブロックは、一般的なクライアント上で指定の論理機能を実行するための1つまたは複数の実行可能命令に対応し得る。
【0032】
特に、図は、方法400を用いた通話中の音声再生を強化するために使用され得る例示的なプロセスを表すことができる。プロセスは、黒い開始円403で始まり、次いで、一般的なクライアントのユーザが通話の参加者として通話に入るとすぐ、ブロック406に進む。例えば、ユーザは、通話エージェントを活用して、(サーバ上で動いている)通話マネージャを用いて認証し、次いで、対応するリクエストを通話マネージャに投入するか、または、ユーザは、通話エージェントを活用して、通話マネージャから受け取られた対応するリクエストを受け入れる。これに応答して、通話エージェントは、ブロック409において、通話の制御を開始し、これにより、参加者は、発言すること/耳を傾けること、および場合によっては、マルチメディア・コンテンツ(例えば、ビデオ、画像、データ、文書など)を共有することによって、他の参加者と通信することができる。この目的のために、通話エージェントは、参加者によって提供された情報を表す(入力された)通話信号を、(ネットワーク・ドライブを介して)通話マネージャに絶えず伝送することができ、通話の他の参加者によって提供された情報を表す(ネットワーク・ドライブを介した)通話マネージャからの(出力された)通話信号を受け取ることができる(例えば、通話信号の両方がMP4フォーマットである)。
【0033】
通話信号は、実質的にリアル・タイムに(および、任意のケースでは、通話全体の通話信号を受け取る前に)、対応する情報の再生のために、ストリーミングで、すなわち、通話中に連続的に受け取ることができる。本開示に関する限りでは、通話エージェントは、クライアントの所在地における入力音を、(通話マネージャに伝送された)入力通話信号に追加された対応する入力オーディオ信号に記録するようにマイクロホンに命ずることができ、同時に、以下で詳細に説明されるように、通話エージェントは、通話の他の参加者のクライアントから受け取られた入力オーディオ信号を通話マネージャが混合することによって生成された(通話マネージャから受け取られた)出力通話信号に含まれる出力オーディオ信号の再生を制御することができる。
【0034】
この目的のために、必要であれば、通話エージェントは、ブロック412において、出力通話信号から(例えば、MP3フォーマットの)出力オーディオ信号を抜き出すことができる。音声認識器は、ブロック415において、(例えば、スペクトル分析技術を適用することによって)通話の他の参加者の(出力された)音声の表現をサーチして、(出力された)オーディオ信号を絶えず分析することができる。音声認識器が音声を検出するとすぐ、品質強化器は、ブロック418において、(もしあれば)音声における休止を表すオーディオ信号の音セグメントを判定することができる。そして、音セグメントは、(通話の始めに初期化された)以前の音セグメントの終わりの後に開始することができ、音声の検出で終了することができる(音声が検出されたとき音セグメントは即時に判定されない)。品質強化器は、ブロック421において、ラウドスピーカ・ドライバによるその次の再生のために、再生バッファに音セグメントを追加することができる。
【0035】
音声認識器は、ブロック424において、一般語彙を使用することによって、対応する音声内の単語の表現をサーチして、オーディオ信号を絶えず分析することができる。特に、音声認識器は一般語彙において指示される発音がオーディオ信号内の音声に、例えば、20~40%などの最小値(妥当性)閾値より高い妥当性の度合いで、最もマッチする(最長の)単語を、できる限りすぐに判定することができる。これに応答して、音声認識器は、認識された単語をテキスト・ファイルに追加することができる。品質強化器は、ブロック427において、(0から1までの範囲に正規化されたその重み付けされた合計などの)単語の品質指標を計算することができ、例えば、品質指標は、音声認識器によって判定された単語の妥当性の度合い、第1の反復で音声認識器によって判定されるような妥当性の度合いの初期値、および妥当性閾値より高い妥当性の度合いを有するのに必要なさらなる反復の数、(例えば、音声認識器によってテキスト・ファイルにログ記録された)通話内の前に認識された単語の妥当性の度合いの傾向などに基づくことが可能である。品質強化器は、ブロック430において、音声内の単語を表すオーディオ信号のさらなる音セグメントを判定することができ、上記のように、音セグメントは、(通話の始めに初期化された)前の音セグメントの終わりの後に始めることができ、単語の認識で終わることができる。
【0036】
活動のフローは、ブロック433において、(対応するレジスタにおいて指示されるように)通話の文脈が判定されたかどうかに応じて分岐する。判定されなかった場合、品質強化器は、ブロック436において、(その品質指標とは関係なく)ラウドスピーカ・ドライバによるその次の再生のために、再生バッファに音セグメントを追加することができる。逆に、通話の文脈が既に判定されていた場合、活動のフローは、ブロック439において、単語の品質指標に応じて分岐する。単語の品質指標が、受入れ可能と見なされる閾値レベル(例えば、0.5~0.7)より(場合によっては厳密に)高い場合、品質強化器は、ブロック442において、ラウドスピーカ・ドライバによるその次の再生のために、再生バッファに音セグメントを追加することができる。
【0037】
逆に、単語の品質指標が、閾値レベルより(場合によっては厳密に)低い場合、品質強化器は、音セグメント内の単語の認識の強化を試みることができる。この目的のために、品質強化器は、ブロック445において、(対応するレジスタから取り出された)通話の文脈に対応する文脈語彙を選択することができる。音声認識器は、ブロック448において、(選択された)文脈語彙をさらに使用することによって、対応する音声内の単語の表現をサーチして、音セグメントを再び分析することができる。特に、上記のように、音声分析器は、一般/文脈語彙において指示された発音が音セグメントに、前に認識された(元の)単語より高い妥当性の度合いで、最もマッチする(強化された)単語を判定することができる。この目的のために、音声認識器はまた、例えば、一般/文脈語彙における音セグメントと単語の発音との間のいくつかのボイスのマッチを評価することによって、妥当性の度合いを判定するために、さらなる強化技術を適用してもよい。これに応答して、音声認識器は、(必要であれば)テキスト・ファイル内の強化された単語で、元の単語を置き換えることができる。
【0038】
品質強化器は、ブロック451において、上記のように、強化された単語の品質指標を計算することができる。音声合成器は、ブロック454において、対応する(強化された)オーディオ信号によって表された強化された単語に対応する強化された音声を(例えば、通話中に学習した対応する参加者の声を模倣して)合成することができる。品質強化器は、ブロック457において、(例えば、スペクトル分析技術を適用することによって)対応する音声とは異なる任意の音によって定義されるような、音セグメントから背景の表現を抽出することができる。品質強化器は、ブロック460において、強化された単語と背景との混合率を計算することができる。混合率は、(例えば、補数(complement)を品質指標の1に設定して)品質指標が高くなると混合率が低くなる、強化された単語の品質指標に依存することが可能である。
【0039】
さらに、混合率は、(対応する修正因子を適用することなどによって)、強化された単語のサーチ中にループの中で認識された単語の品質指標の傾向、(例えば、音声認識器によってテキスト・ファイルにログ記録された)通話内の前に認識された(元の/強化された)単語の品質指標の傾向、(例えば、同様に音声認識器によってテキスト・ファイルにログ記録された)通話内の前に計算された混合率の傾向などにも依存し得る。品質強化器は、ブロック463において、(混合率が高くなると、その中の強化された音声の重みが大きくなる)混合率に応じて、強化された単語を背景と混合することによって、対応する強化された音セグメントを生成することができる。
【0040】
品質強化器は、ブロック466において、ラウドスピーカ・ドライバによるその次の再生のために、再生バッファに、強化された音セグメントを(対応する音セグメントの代わりに)追加することができる。このようにして、(混合率によって定義されるような)強化された音セグメント内の強化された音声の普及率は、(その品質指標によって定義されるような)強化された音セグメント内の強化された単語の明瞭さに対応することが可能である。このことにより、隣接した音セグメントと強化された音セグメントとの任意のペアの間の遷移を滑らかにすることができる(これにより、強化された音の再生をより流暢にする)。
【0041】
いずれにしても、活動のフローは、ブロック436、ブロック442、またはブロック466から、ブロック469において再び合流することができる。この時点で、認知エンジンは、認識されたテキストから可能なメタデータを抽出することができ、このメタデータは、(適宜アップデートされた文脈レジスタを用いて)音声の文脈を判定するために漸増的に使用される。
【0042】
通話エージェントは、ブロック472において、参加者がまだ通話に参加しているかどうかを検証することができる。参加している場合、プロセスは、ブロック412に戻って、動作を繰り返す。逆に、通話への参加者の関与が終了されると(例えば、通話を離れるために参加者によって通話エージェントに投入された手動式のコマンド、または通話を止めるために会議マネージャから受け取られたコマンドに応答して)、プロセスは、同心の白/黒の停止円475において終わることができる。
【0043】
したがって、ローカルかつ固有の要件を満たすために、当業者は、多くの論理的もしくは物理的またはその両方の修正および変更を本開示に適用してもよい。より詳細には、本開示は、本開示の1つまたは複数の実施形態を参照しながら、特定の度合いの特殊性で説明されてきたが、形式および詳細ならびに他の実施形態の様々な省略、代用、および変更が可能であることを理解されたい。特に、本開示をより完全に理解するために、前の説明で説明された固有の詳細(数値など)がなくても,本開示の種々の実施形態が実践されてもよく、逆に、不必要な詳細で説明を不明瞭にしないように、よく知られた特徴は省略または簡素化されていてもよい。その上、本開示の任意の実施形態と共に説明される固有の要素もしくは方法ステップまたはその両方は、全体的なデザイン選択の問題として、任意の他の実施形態に組み込まれてもよいことが明確に意図される。その上、同じグループおよび異なる実施形態、例、または代替において提示された項目は、互いに同等の事実として解釈されるべきではない(しかし、これらは、別個かつ自律的なエンティティである)。いずれにしても、各数値は、適用可能な許容範囲に応じて修正されるものとして読まれるべきであり、特に、別途指示がない限り、「実質的に」、「約」、「およそ」などの用語は、10%、好ましくは5%、およびさらにより好ましくは1%内であると理解されるべきである。その上、数値の各範囲は、(範囲の終点を含む)範囲内の連続に沿った任意の可能な数字を明確に指定するものと意図されるべきである。序数または他の修飾語は、同じ名前を有する要素を区別するためのラベルとして使用されるにすぎず、序数または他の修飾語自体によって、任意の優先度、序列、または順序を暗示しない。含む(include)、備える(comprise)、有する(have)、含有する(contain)、伴う(involve)、および同様のものといった用語は、開かれた完全に網羅されていない意味で意図されるべきであり(すなわち、列挙された項目に限定されない)、~に基づく、~に依存している、~に応じて、~の機能、および同様のものという用語は、非排他的関係として意図されるべきであり(すなわち、可能なさらなる変数が伴う)、a/anという用語は、(別途明確に指示されない限り)1つまたは複数の項目として意図されるべきであり、~のための手段という用語(または、任意の手段プラス機能の表現)は、関連機能を実行するように適合または構成された任意の構造として意図されるべきである。
【0044】
例えば、実施形態は、コンピューティング・システム上で音声再生を強化するための方法を提供する。それでも、方法は、任意のコンテキストで(例えば、ビデオ/オーディオ通話、ライブの/事前に記録されたコンテンツの配信、などの間に)使用されてもよい。
【0045】
実施形態では、方法は、コンピューティング・システムの制御下で、以下のステップを含む。それでも、コンピューティング・システムは、任意のタイプのものでもよい(下記参照)。
【0046】
実施形態では、方法は、音声を含む音を表すオーディオ信号を(コンピューティング・システムによって)受け取ることを含む。それでも、オーディオ信号は、コンピューティング・システムによって読むことができる任意のフォーマット(例えば、MP3、WMA、AC-3など)でもよく、任意の方式で(例えば、ストリーミングで、ダウンロードして、など)受け取られてもよく、オーディオ信号は、任意の音声(例えば、チャット、講義など)を含む任意の音(例えば、抜き出された音声、背景の音楽/雑音を含む音声など)を表してもよい。
【0047】
実施形態では、方法は、オーディオ信号からテキストを(コンピューティング・システムによって)認識することを含む。それでも、テキストは、(例えば、隠れマルコフ・モデル、機械学習技術、ニューラル・ネットワークなどに基づく)任意の方式で認識されてもよい。
【0048】
実施形態では、テキストは、音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む。それでも、テキスト・セグメントおよび音セグメントは、(例えば、単語、形態素、句、節、文などを表す)任意のタイプのものでもよい。
【0049】
実施形態では、方法は、上記テキスト・セグメントを上記認識することの対応する品質指標を(コンピューティング・システムによって)判定することを含む。それでも、品質指標は、(例えば、連続的な/個別の、任意の値を有する、など)任意のタイプのものでもよく、任意の方式で(例えば、上記で言及されたものに関する、部分的な、異なる、および追加の特徴に応じて、個別に、またはその任意の組合せで)判定されてもよい。
【0050】
実施形態では、方法は、品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを(コンピューティング・システムによって)生成することを含む。それでも、この動作は、任意の方式で(例えば、品質指標が任意の値を下回るとすぐ、これが2つ以上の連続したテキスト・セグメントに対して起こった後、など)トリガされてもよい。
【0051】
実施形態では、強化されたテキスト・セグメントは、対応する音セグメントに関する追加の情報に応じて生成される。それでも、強化されたテキスト・セグメントは、任意の方式で(例えば、音声の文脈、現在の文、などに応じて)生成されてもよい。
【0052】
実施形態では、方法は、強化されたテキスト・セグメントから、対応する強化された音声セグメントを(コンピューティング・システムによって)合成することを含む。それでも、強化された音声セグメントは、任意の方式で(例えば、連結、ユニット選択、ダイフォン(diphone)、フォルマント、調音、深層学習などの技術に基づいて)合成されてもよい。
【0053】
実施形態では、方法は、品質指標が閾値レベルに達するテキスト・セグメントに対する対応する音セグメントと、品質指標が閾値レベルに達しないテキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を(コンピューティング・システムによって)再生することを含む。それでも、強化された音は、任意の方式で(例えば、音セグメントと強化された音セグメントとを単純に連結することによって、音セグメントと強化された音セグメントとの各ペアの間の連結を滑らかにすることによって、など)生成されてもよく、任意の方式で(例えば、再生バッファを介して、直接的に、など)再生されてもよい。
【0054】
実施形態では、強化された音セグメントは、対応する強化された音声セグメントに基づく。それでも、強化された音セグメントは、任意の方式で(例えば、音声セグメントを対応する背景セグメントと混合することによって、対応する背景セグメントを音声セグメントに直接設定することによって、などで取得された)対応する強化された音声セグメントに基づいてもよい。
【0055】
さらなる実施形態は、追加の有利な特徴を提供するが、基本的な実施形態では完全に省略されてもよい。
【0056】
特に、実施形態では、方法は、音声の文脈に応じて、強化されたテキスト・セグメントを(コンピューティング・システムによって)生成することを含む。それでも、文脈は、任意の方式で(例えば、所定の文脈の中からまたは自由に、テキストに応じて、音声の表題、手動で、など)判定されてもよく、任意の方式で(例えば、対応する文脈語彙、固有の推察ルールなどを使用することによって)強化されたテキスト・セグメントを生成するために使用されてもよい。
【0057】
実施形態では、方法は、テキストに応じて音声の文脈を(コンピューティング・システムによって)判定することを含む。それでも、文脈は、任意の方式で(例えば、認知、機械学習、人工知能などの技術で)テキストに応じて判定されてもよい。
【0058】
実施形態では、方法は、音声の文脈に応じて1つまたは複数の文脈語彙を(コンピューティング・システムによって)選択することを含む。それでも、文脈語彙は、(例えば、事前定義された、実行時に判定された、などの)任意の数のもの、および、(例えば、ローカルに格納された、リモートにアクセスされる、など)任意のタイプのものでもよい。
【0059】
実施形態では、方法は、文脈語彙に応じて、強化されたテキスト・セグメントを(コンピューティング・システムによって)生成することを含む。それでも、文脈語彙は、(例えば、一般語彙に加えて、独立して、など)強化されたテキスト・セグメントを生成するために任意の方式で使用されてもよい。
【0060】
実施形態では、音セグメントおよびテキスト・セグメントは、音声の対応する単語または休止を表す。それでも、テキスト・セグメントは、任意のエンティティ(例えば、単語もしくは休止、単語のみ、またはより一般には、任意の他の音声単位)を表してもよい。
【0061】
実施形態では、方法は、音セグメントから対応する背景セグメントを(コンピューティング・システムによって)抜き出すことを含む。それでも、背景セグメントは、任意の方式で(例えば、スペクトル分析、深層学習などの技術で)抜き出されてもよい。
【0062】
実施形態では、背景セグメントは、音声とは異なる背景を表す。それでも、背景は、任意のタイプのもの(例えば、雑音、音楽、混信など)でもよい。
【0063】
実施形態では、方法は、対応する強化された音声セグメントと背景セグメントとを混合することによって、強化された音セグメントを(コンピューティング・システムによって)生成することを含む。それでも、強化された音声セグメントおよび背景セグメントは、任意の方式で(例えば、可変の混合率に応じて、固定式で、など)混合されてもよい。
【0064】
実施形態では、方法は、強化されたテキスト・セグメントの対応するさらなる品質指標を(コンピューティング・システムによって)判定することを含む。それでも、さらなる品質指標は、(品質指標に対して同じまたは異なる)任意の方式で判定されてもよい。
【0065】
実施形態では、方法は、対応する強化されたテキスト・セグメントのさらなる品質指標に応じて、対応する強化された音声セグメントと背景セグメントとを上記混合することの対応する混合率を(コンピューティング・システムによって)設定することを含む。それでも、混合率は、任意の方式で(例えば、上記で言及されたものに対する部分的な、異なる、および追加の特徴に応じて、個別に、またはその任意の組合せで)、さらなる品質指標に応じて設定されてもよく、代替として、対応する(元の)単語の品質指標に応じて、類似の方式で混合率を設定することが可能である。
【0066】
実施形態では、方法は、対応する混合率に応じて、対応する強化された音声セグメントと背景セグメントとを混合することによって、強化された音セグメントを(コンピューティング・システムによって)生成することを含む。それでも、強化された音声セグメントおよび背景セグメントは、対応する混合率に応じて任意の方式で(例えば、これらのボリューム・レベル、周波数コンテンツ、ダイナミクスなどを変調すること)混合されてもよい。
【0067】
実施形態では、方法は、さらに混合率の傾向に応じて、混合率のそれぞれを(コンピューティング・システムによって)設定することを含む。それでも、混合率は、任意の方式で(例えば、対応する修正因子を適用することによって、重み付けされた合計に対応する修正因子を使用することによって、など)、この傾向に応じて設定されてもよい。
【0068】
実施形態では、方法は、上記対応するテキスト・セグメントを上記認識することの現在の品質、品質傾向、もしくは反復の数、またはそれらの組合せに応じて、品質指標のそれぞれを(コンピューティング・システムによって)判定することを含む。それでも、部分的な、異なる、および追加の特徴に応じて、個別に、またはその任意の組合せで、各品質指標が判定されてもよい。
【0069】
実施形態では、方法は、音が入ったマルチメディア・コンテンツを表すマルチメディア信号を(コンピューティング・システムによって)受け取ることを含む。それでも、マルチメディア・コンテンツは、(例えば、ビデオ、画像、データ、文書などを含む)任意のタイプのものでもよい。
【0070】
実施形態では、方法は、マルチメディア信号からオーディオ信号を(コンピューティング・システムによって)抜き出すことを含む。それでも、オーディオ信号は、任意の方式で抜き出されてもよく、または、(例えば、オーディオ通話/会議において既に分離されて、単独でなど、オーディオ信号が提供されるとき)この動作は完全に省略されてもよい。
【0071】
実施形態では、方法は、テレコミュニケーション・ネットワークを介したストリーミングで、オーディオ信号を(コンピューティング・システムによって)受け取ることを含む。それでも、オーディオ信号は、任意のタイプのストリーミング(例えば、マルチキャスト、ユニキャスト、ピアツーピアなど)で、および、任意のテレコミュニケーション・ネットワーク(例えば、有線、セルラー、または衛星接続などに基づく、グローバル、ワイド・エリア、またはローカル・ネットワーク)を介して、受け取られてもよい。
【0072】
実施形態では、方法は、テレコミュニケーション・ネットワークを介して通話中に、オーディオ信号を(コンピューティング・システムによって)受け取ることを含む。それでも、通話は、任意のタイプのものでもよい(例えば、オーディオ/ビデオ通話、遠隔会議、ウェブ会議など)。
【0073】
一般に、(そのより多くのステップまたは部分の同じ機能を有する類似のステップを使用すること、いくつかの不必要なステップを除去すること、または、さらなるオプションのステップを追加することによって)同等の方法で同じ解決策が実施される場合、類似の考慮が適用され、その上、ステップは、異なる順序で、同時に、またはインターリーブされた方式で(少なくとも部分的に)実施されてもよい。
【0074】
実施形態は、コンピューティング・システムに上述の方法を実施させるように構成されたコンピュータ・プログラムを提供する。実施形態は、プログラム命令をまとめて格納した1つまたは複数のコンピュータ可読ストレージ媒体を備えるコンピュータ・プログラム製品を提供し、プログラム命令は、コンピューティング・システムに同じ方法を実施させるために、コンピューティング・システムによって読取り可能である。それでも、コンピュータ・プログラムは、スタンド・アロン・モジュールとして、既存のソフトウェア・アプリケーション(例えば、通話エージェント)のためのプラグインとして、またはコンピュータ・プログラムの中で直接的に、実行されてもよい。その上、コンピュータ・プログラムは、任意のコンピューティング・システム(下記参照)上で実行されてもよい。いずれにしても、本開示の実施形態による解決策は、ことによると、ハードウェア構造で(例えば、半導体材料の1つもしくは複数のチップ内に統合された電子回路によって)、または、適切にプログラムされた、もしくはそうでなければ構成された、ソフトウェアとハードウェアの組合せで、実施されるのに適している。
【0075】
実施形態は、上述の方法のステップを実施するように構成された手段を備えるシステムを提供する。実施形態は、上述の方法の各ステップを実施するための回路(すなわち、例えばソフトウェアによって、適切に構成された任意のハードウェア)を備えるシステムを提供する。それでも、システムは、強化された音を再生するための任意の数およびタイプのデバイス(例えば、1つまたは複数のラウドスピーカ、イヤホン、ヘッドホンなど)を有する、任意のタイプのものでもよい(例えば、パーソナル・コンピュータ、スマートフォン、タブレット、仮想マシンなど)。
【0076】
一般に、システムが異なる構造を有するか、同等の構成要素を備える、または、他の動作特性を有する場合、類似の考慮が適用される。いずれにしても、そのあらゆる構成要素が、より多くの要素に分離されてもよく、または、2つ以上の構成要素が、単一の要素に一緒に組み合わされてもよく、その上、各構成要素は、並列の対応する動作の実行をサポートするために複製されてもよい。その上、別途指定されない限り、異なる構成要素間の任意の対話は、全体的に連続的である必要はなく、直接的なものでも、1つまたは複数の中間体を通じた間接的なものでもよい。
【0077】
本発明は、統合の任意の可能な技術詳細レベルにおける、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せでもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のために命令を保持し、記憶することが可能な、有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せでもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(登録商標)ディスク、命令を記録したパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。本明細書で使用されるようなコンピュータ可読ストレージ媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、本質的に一時的な信号であると解釈されるべきではない。本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれの計算/処理デバイスに、または、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組合せといった、ネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを含んでもよい。各計算/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれの計算/処理デバイス内のコンピュータ可読ストレージ媒体に記憶するためにコンピュータ可読プログラム命令を転送する。本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路構成のための構成データ、または、Smalltalk(登録商標)、C++、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードでもよい。コンピュータ可読プログラム命令は、全面的にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で、スタンド・アロンのソフトウェア・パッケージとして実行してもよいし、または、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または、接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラム可能論理回路構成、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路構成は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路構成を個別化することによって、コンピュータ可読プログラム命令を実行してもよい。本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャートもしくはブロック図またはその両方を参照しながら本明細書で説明される。フローチャートもしくはブロック図またはその両方の各ブロック、ならびにフローチャートもしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行できることが理解されよう。これらのコンピュータ可読プログラム命令は、コンピュータ、または他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実行するための手段を作り出すべく、コンピュータのプロセッサ、または他のプログラム可能データ処理装置に提供されてマシンを作り出すものであってもよい。これらのコンピュータ可読プログラム命令はまた、命令を記憶したコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作の態様を実行する命令を含む製品を備えるべく、コンピュータ可読ストレージ媒体に格納され、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイス、またはそれらの組合せに特定の様式で機能するように指示することができるものであってもよい。コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置、もしくは他のデバイス上で実行される命令が、フローチャートまたはブロック図またはその両方の1つまたは複数のブロックで指定された機能/動作を実行するように、コンピュータ実行プロセスを作り出すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、フローチャートまたはブロック図中の各ブロックは、指定の論理機能を実行するための1つまたは複数の実行可能命令を含む命令の、モジュール、セグメント、または一部分を表してもよい。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序から外れて行われてもよい。例えば、連続して示された2つのブロックは、実際には、同時に、実質的に同時に、部分的もしくは全面的に時間的に重複した様式で実行される1つのステップとして達成されてもよく、または、ブロックは、時には、含まれる機能に応じて、逆の順序で実行されてもよい。また、ブロック図もしくはフローチャート、またはその両方の各ブロック、および、ブロック図もしくはフローチャートまたはその両方におけるブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実行できることに留意されたい。
【手続補正書】
【提出日】2023-08-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータの情報処理によりコンピューティング・システム上で音声再生を強化するための方法であって、
音声を含む音を表すオーディオ信号を前記コンピューティング・システムによって受け取ることと、
前記オーディオ信号からテキストを前記コンピューティング・システムによって認識することであって、前記テキストが、前記音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む、前記認識することと、
前記テキスト・セグメントを前記認識することの対応する品質指標を前記コンピューティング・システムによって判定することと、
品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを前記コンピューティング・システムによって生成することであって、前記強化されたテキスト・セグメントが、音セグメントの前記対応するシーケンスに関する追加の情報に応じて生成される、前記生成することと、
前記強化されたテキスト・セグメントから、対応する強化された音声セグメントを前記コンピューティング・システムによって合成することと、
品質指標が前記閾値レベルに達する前記テキスト・セグメントに対する音セグメントの前記対応するシーケンスと、品質指標が前記閾値レベルに達しない前記テキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を前記コンピューティング・システムによって再生することであって、前記強化された音セグメントが、前記対応する強化された音声セグメントに基づく、前記再生することと
を含む、方法。
【請求項2】
前記音声の文脈に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成すること
をさらに含む、請求項1に記載の方法。
【請求項3】
前記テキストに応じて前記音声の前記文脈を前記コンピューティング・システムによって判定すること
をさらに含む、請求項2に記載の方法。
【請求項4】
前記音声の前記文脈に応じて1つまたは複数の文脈語彙を前記コンピューティング・システムによって選択することと、
前記文脈語彙に応じて、前記強化されたテキスト・セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項2
または3に記載の方法。
【請求項5】
前記音セグメントおよび前記テキスト・セグメントが、前記音声の対応する単語または休止を表す、請求項1
~4のいずれか1項に記載の方法。
【請求項6】
前記音セグメントから対応する背景セグメントを前記コンピューティング・システムによって抜き出すことであって、前記背景セグメントが、前記音声とは異なる背景を表す、前記抜き出すことと、
前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項1
~5のいずれか1項に記載の方法。
【請求項7】
前記強化されたテキスト・セグメントの対応するさらなる品質指標を前記コンピューティング・システムによって判定することと、
前記対応する強化されたテキスト・セグメントの前記さらなる品質指標に応じて、前記対応する強化された音声セグメントと背景セグメントとを前記混合することの対応する混合率を前記コンピューティング・システムによって設定することと、
前記対応する混合率に応じて、前記対応する強化された音声セグメントと背景セグメントとを混合することによって、前記強化された音セグメントを前記コンピューティング・システムによって生成することと
をさらに含む、請求項6に記載の方法。
【請求項8】
前記対応する混合率の傾向にさらに基づいて、前記対応する混合率を前記コンピューティング・システムによって設定すること
をさらに含む、請求項7に記載の方法。
【請求項9】
前記オーディオ信号からの前記テキストを前記認識することの現在の品質、品質傾向、または反復の数のうちの少なくとも1つに応じて、前記品質指標を前記コンピューティング・システムによって判定すること
をさらに含む、請求項1
~7のいずれか1項に記載の方法。
【請求項10】
前記音が入ったマルチメディア・コンテンツを表すマルチメディア信号を前記コンピューティング・システムによって受け取ることと、
前記マルチメディア信号から前記オーディオ信号を前記コンピューティング・システムによって抜き出すことと
をさらに含む、請求項1
~9のいずれか1項に記載の方法。
【請求項11】
テレコミュニケーション・ネットワークを介したストリーミングで、前記オーディオ信号を前記コンピューティング・システムによって受け取ること
をさらに含む、請求項1
~10のいずれか1項に記載の方法。
【請求項12】
前記テレコミュニケーション・ネットワークを介して通話中に、前記オーディオ信号を前記コンピューティング・システムによって受け取ること
をさらに含む、請求項11に記載の方法。
【請求項13】
請求項1~12のいずれか1項に記載された方法を、コンピュータに対して実行させるためのコンピュータ・プログラム。
【請求項14】
請求項13に記載のコンピュータ・プログラムを記録した、コンピュータ可読ストレージ媒体。
【請求項15】
音声再生を強化するためのシステムであって、
音声を含む音を表すオーディオ信号を受け取るための回路構成と、
前記オーディオ信号からテキストを認識するための回路構成であって、前記テキストが、前記音の音セグメントの対応するシーケンスから認識されたテキスト・セグメントのシーケンスを含む、前記回路構成と、
前記テキスト・セグメントを前記認識することの対応する品質指標を判定するための回路構成と、
品質指標が閾値レベルに達しない任意のテキスト・セグメントから、対応する強化されたテキスト・セグメントを生成するための回路構成であって、前記強化されたテキスト・セグメントが、音セグメントの前記対応するシーケンスに関する追加の情報に応じて生成される、前記回路構成と、
前記強化されたテキスト・セグメントから、対応する強化された音声セグメントを合成するための回路構成と、
品質指標が前記閾値レベルに達する前記テキスト・セグメントに対する音セグメントの前記対応するシーケンスと、品質指標が前記閾値レベルに達しない前記テキスト・セグメントに対する対応する強化された音セグメントとを含む強化された音を再生するための回路構成であって、前記強化された音セグメントが、前記対応する強化された音声セグメントに基づく、前記回路構成と
を備える、システム。
【国際調査報告】