(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-15
(54)【発明の名称】音声装置およびその動作方法
(51)【国際特許分類】
G10L 21/028 20130101AFI20241108BHJP
G06F 3/16 20060101ALI20241108BHJP
G10L 21/0272 20130101ALI20241108BHJP
G10L 15/28 20130101ALI20241108BHJP
G10L 15/22 20060101ALI20241108BHJP
【FI】
G10L21/028 B
G06F3/16 540
G06F3/16 650
G10L21/0272 100A
G10L15/28 400
G10L15/22 453
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024532472
(86)(22)【出願日】2022-11-25
(85)【翻訳文提出日】2024-05-30
(86)【国際出願番号】 EP2022083362
(87)【国際公開番号】W WO2023099359
(87)【国際公開日】2023-06-08
(32)【優先日】2021-12-02
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】ジョンソン マーク トーマス
(72)【発明者】
【氏名】ヤンセン リック ヨセフ マルティヌス
(72)【発明者】
【氏名】ベレツノイ イゴル
(72)【発明者】
【氏名】パウル ソブヒク
(57)【要約】
音声装置は、複数の音声ビームを形成し、複数の音声ビームの各音声ビームのために音声キャプチャ信号を生成する音声キャプチャ装置201を含む。ビームステアリング装置203は、各音声ビームを異なる音源に向ける。アナライザ211は、少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定する。分類器213は、発話特性に応じて、第1の音声キャプチャ信号について、複数の話者カテゴリのうちのある話者カテゴリを決定する。音声生成器205は、第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって音声出力信号を生成する。アダプタ215は、第1の話者カテゴリに応じて第1の音声出力信号を調整する。例えば、一部の話者カテゴリの一部の音声は、音声出力信号において完全にまたは部分的にミュートされる可能性がある。
【特許請求の範囲】
【請求項1】
環境内の音声をキャプチャする音声キャプチャ装置であって、前記音声キャプチャ装置は、複数の音声ビームを形成し、前記複数の音声ビームの各音声ビームについて、音声キャプチャ信号を生成する、音声キャプチャ装置と、
前記複数の音声ビームの各音声ビームを異なる音源に向けるビームステアリング装置と、
少なくとも第1の音声キャプチャ信号を解析して、前記第1の音声キャプチャ信号の音声の発話特性を決定するアナライザと、
前記発話特性に応じて、前記第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定する分類器と、
前記第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第1のユーザのための第1の音声出力信号を生成する音声生成器と、
前記第1の話者カテゴリ、および前記第1のユーザの特性に応じて前記第1の音声出力信号を調整するアダプタと、
を備える、音声装置。
【請求項2】
前記音声生成器はさらに、前記第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第2のユーザのための異なる第2の音声出力信号を生成し、前記アダプタは、前記第1の話者カテゴリ、および前記第2のユーザの特性に応じて前記第2の音声出力信号を個別に調整する、請求項1に記載の音声装置。
【請求項3】
前記アナライザは、前記第1の音声キャプチャ信号内の単語を検出し、前記検出された単語に応じて、前記発話特性のうち少なくとも第1の発話特性を決定する、請求項1または2に記載の音声装置。
【請求項4】
前記アナライザは、前記検出された単語の自然言語処理に応じて、前記発話特性のうちの前記第1の発話特性を決定する、請求項3に記載の音声装置。
【請求項5】
前記アダプタは、前記第1の話者カテゴリに応じて、前記複数の音声キャプチャ信号のうちのどの音声キャプチャ信号が、前記第1の音声出力信号を生成するための前記組み合わせに含まれるかを選択する、請求項1から4のいずれか一項に記載の音声装置。
【請求項6】
前記音声装置は、前記第1の音声キャプチャ信号のセグメントを解析して、複数の内容カテゴリから前記セグメントの内容カテゴリを決定する内容アナライザをさらに備え、前記アダプタは、前記内容カテゴリに応じて前記第1の音声出力信号を調整する、請求項1から5のいずれか一項に記載の音声装置。
【請求項7】
前記アダプタは、少なくとも1つの内容カテゴリと前記第1の話者カテゴリとの組み合わせの場合、前記第1の音声キャプチャ信号のセグメントを減衰させ、少なくとも1つの他の内容カテゴリと前記第1の話者カテゴリとの組み合わせの場合、前記第1の音声キャプチャ信号のセグメントを減衰させない、請求項6に記載の音声装置。
【請求項8】
前記減衰されるセグメントの表示を提示するためのユーザインターフェースを備える、請求項7に記載の音声装置。
【請求項9】
前記分類器が、
音源の音声キャプチャ信号の周波数分布に基づいて、前記音源の署名を生成する署名生成器と、
前記音源に対して決定された話者カテゴリにリンクされた音源の署名を保存する記憶部と、
を含み、
前記署名生成器は、前記第1の音源が検出されたことに応じて、前記第1の音源の第1の署名を生成し、
前記分類器は、前記第1の署名と、前記記憶部内に保存されている署名とを照合し、前記保存されている署名にリンクされた話者カテゴリに応じて前記第1の音源の前記第1の話者カテゴリを決定する、請求項1から8のいずれか一項に記載の音声装置。
【請求項10】
前記音声キャプチャ装置は新しい音源を検出し、前記ビームステアリング装置は、前記新しい音源の検出に応じて、音声ビームを、以前の音源に向けられた状態から、前記新しい音源に向けられた状態に切り替え、前記以前の音源の話者カテゴリに応じて、ビームを向ける複数の音源から前記以前の音源を選択する、請求項1から9のいずれか一項に記載の音声装置。
【請求項11】
前記音声装置が、さらに、
現在アクティブな発話信号を含むアクティブな音声キャプチャ信号を検出する検出器と、
前記アクティブな音声キャプチャ信号の音源に割り当てられた話者カテゴリの表示を提示するユーザインターフェースと、
を備える、請求項1から10のいずれか一項に記載の音声装置。
【請求項12】
前記音声生成器は、前記第1の話者カテゴリに応じて、前記音声キャプチャ信号の少なくとも1つの組み合わせ重みを調整する、請求項1から11のいずれか一項に記載の音声装置。
【請求項13】
前記音声キャプチャ装置は可変音声ビームを生成し、前記ビームステアリング装置は、
前記可変音声ビームを変化させて潜在的な新しい音源を検出し、
前記潜在的な新しい音源と、前記複数のビームのうちのいずれかのビームが向けられている音源とが一致するか否かを判定し、一致するか否かの前記判定は、前記可変音声ビームの特性、および前記複数の音声ビームのうちの音声ビームの特性と、前記可変音声ビームの音声キャプチャ信号の特性、および前記複数の音声ビームの音声キャプチャ信号の特性とのうちの少なくとも1つの比較に応じて行われ、
一致が検出されない場合、音声ビームを以前の音源から前記潜在的な新しい音源に向ける、請求項1から12のいずれか一項に記載の音声装置。
【請求項14】
前記第1のユーザの少なくとも1つの情報カテゴリへの許容されるアクセスの程度を示すアクセス権限特性、請求項1から13のいずれか一項に記載の音声装置。
【請求項15】
音声装置の動作方法であって、前記方法は、
複数の音声ビームを形成し、前記複数の音声ビームの各音声ビームのために音声キャプチャ信号を生成することによって、環境内の音声をキャプチャするステップと、
前記複数の音声ビームの各音声ビームを異なる音源に向けるステップと、
少なくとも第1の音声キャプチャ信号を解析して、前記第1の音声キャプチャ信号の音声の発話特性を決定するステップと、
前記発話特性に応じて、前記第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定するステップと、
前記第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第1のユーザのための第1の音声出力信号を生成するステップと、
前記第1の話者カテゴリ、および前記第1のユーザの特性に応じて前記第1の音声出力信号を調整するステップと、
を含む、方法。
【請求項16】
コンピュータ上で実行されると、請求項15に記載の方法の全てのステップを実行するコンピュータプログラムコード手段を含む、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、1つ以上の音声出力信号を生成する装置および方法に関し、特に、限定はされないが、リモートデバイスに配信するための音声信号の生成に関する。
【背景技術】
【0002】
現在、従来は人間のグループが同じ場所にいて直接やり取りしていた多くの作業およびやり取りを、より分散化された方法で実施する傾向が強まっている。このような新しい分散化されたアプローチの多くは、基本的には、異なる場所間での音声信号の配信に基づいており、異なる場所にいる様々な参加者がやり取りおよび通信できるようにする。
【0003】
例えば、救急車、病棟、手術室などの医療環境では、サービスを向上させるために複数の医療従事者がやり取りすることを望む可能性がある。従来の医療環境では、効率的に連携するためには全ての参加者が同じ場所にいる必要があった。しかし、多数の人が患者から離れた場所にいることができるように、音声配信を使用してこのようなシナリオが実現または容易化されることが増えている。例えば、実際の手術室には主治医、看護師、患者などを含む多数の人がいるが、それに加えて、多数の専門家が離れた場所、場合によっては遠く離れた場所にいることができる。例えば、機器の技術専門家が離れた場所にいたり、離れた場所にいる非常に特殊な専門知識を有するコンサルタント医が関与したりすることができる。
【0004】
別の例は、コンピュータ機器を含む様々な機器の障害復旧またはサービス/メンテナンスの分野に存在する。このような場合、日常的なユーザおよび場合によってはフィールドサービスエンジニアが現場にいて、機器の様々な側面を専門とする様々なエンジニアが離れた場所にいる可能性がある。
【0005】
したがって、多くの実践的なサービスセッションには、現地または離れた場所に存在する多数の関与者が含まれる可能性がある。これらの関与者は以下を含み得る。
・フィールドサービスエンジニア
・現地の技術スタッフ
・現地の臨床スタッフ
・非技術系または非臨床系スタッフおよび専門家、管理スタッフ、ならびに/またはサポートスタッフ
・場合によっては患者(または家族)
・その他
【0006】
別の例として、多くの会議、さらには裁判も、音声会議を含むビデオ会議を使用して行われることが増えている。このような場合、しばしば、多くの参加者(例えば、裁判官、弁護士、裁判所職員)はメインの会議室または裁判所にいる一方、他の参加者(例えば、被告人または証人)は適切な視聴覚会議リンクを介して参加する可能性がある。
【0007】
このようなアプローチは多くの状況で非常に有利である傾向があるが、効率的な音声配信に大きく依存する。さらに、プライバシーの維持、効率的なターゲットを絞った通信、実用的で好ましくは複雑性が低い実装などをいかにしてサポートするかなど、多くの新しい問題および課題も発生する。外部ソースに提供される音声信号の優先条件および要件は実施形態ごとに大きく異なる可能性がある。全体的な体験を向上させ、分散した場所をサポート可能な音声サービスおよび信号を提供できるようにすることへの大きな需要が存在する。
【0008】
現在、このようなシナリオは通常、環境/室内の音声が1つ以上のマイクによって拾われ、リモートソースに送信される単純な音声会議ソリューションによってサポートされている。しかし、このような基礎的なアプローチは準最適である傾向があり、分散ユーザ体験をさらに強化またはサポートできる追加のサービスおよび/または機能を提供可能な音声配信を含む、より効率的かつ機能的な音声配信を使用することが望ましいであろう。
【0009】
改善されたアプローチは多くのシナリオで有利であろう。特に、動作の向上、柔軟性の上昇、複雑さの軽減、実装の容易化、ユーザ体験の向上、動作の確実性もしくは堅牢さの向上、計算負荷の軽減、適用性の拡大、動作の容易化、柔軟なシナリオのためのサポート強化、適応性の向上、ならびに/またはパフォーマンスおよび/もしくは動作の向上を可能にするアプローチは有益であろう。
【発明の概要】
【0010】
したがって、本発明は、上記欠点の1つ以上を単独で、または任意の組み合わせで好適に緩和、低減、または排除することを目的とする。
【0011】
本発明の一態様によれば、音声装置が提供され、音声装置は、環境内の音声をキャプチャする音声キャプチャ装置であって、音声キャプチャ装置は、複数の音声ビームを形成し、複数の音声ビームの各音声ビームについて、音声キャプチャ信号を生成する、音声キャプチャ装置と、複数の音声ビームの各音声ビームを異なる音源に向けるビームステアリング装置と、少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定するアナライザと、発話特性に応じて、第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定する分類器と、第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第1のユーザのための第1の音声出力信号を生成する音声生成器と、第1の話者カテゴリ、および第1のユーザの特性に応じて第1の音声出力信号を調整するアダプタと、を含む。
【0012】
本発明は改善された音声配信システムを提供し、多数の音声に基づいたアプリケーションおよびサービスに対する改善されたサポートを提供するか、さらにはこのようなアプリケーションおよびサービスを実現可能にする可能性がある。このアプローチにより、例えば、環境内、具体的には例えば部屋内にローカルに存在する人々とやり取りしているリモート参加者を含めるなどのサポートが改善される可能性がある。このアプローチにより、異なる場所にいる人々が同じアクティビティに効果的に参加でき、場合によっては全ての参加者が効率的に相互にやり取りおよび通信できる多くの実用的なアプリケーションおよびサービスのサポートを改善し、かつ/またはこのようなアプリケーションおよびサービスを容易化できる可能性がある。このアプローチは、多くの場合、全ての参加者が同じ場所にいる状況で体験できるものとより近いユーザ体験を提供する可能性がある。このアプローチは、多くの場合、例えばリモート参加者に対して、改善および差別化され体験を提供する可能性がある。
【0013】
このアプローチは、多くのシナリオにおいて、出力音声信号を介して提供される音声の調整および改善された制御をもたらす可能性がある。例えば、生成された音声は、リモート参加者にとって適切でない一部の話者または発せられた音声の一部を除外するように調整される可能性がある。
【0014】
装置は、例えばネットワークを介して、音声出力信号をリモートデバイスに送信するように構成されてもよい。発話特性の少なくとも一部は、第1の音声キャプチャ信号の発話の認知的内容を示すものであってもよい。
【0015】
一部の実施形態では、装置は、第1の音声出力信号を出力するための出力プロセッサを含み得る。出力プロセッサは、第1の音声信号をリモートデバイスに提供するように構成されてもよい。出力プロセッサは、第1の音声信号をエンコードするための音声エンコーダと、エンコードされた第1の音声信号をリモートデバイスに通信するための通信部とを含み得る。通信部は、ネットワークによって提供される通信チャネルなどの通信チャネルを介して、エンコードされた第1の音声信号を送信するように構成されてもよい。
【0016】
本発明の任意選択の特徴によれば、音声生成器はさらに、第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第2のユーザのための異なる第2の音声出力信号を生成し、アダプタは、第1の話者カテゴリ、および第2のユーザの特性に応じて第2の音声出力信号を個別に調整する。
【0017】
これにより、多くの実施形態およびシナリオにおいて、パフォーマンス、動作、および/またはユーザ体験が改善する可能性がある。
【0018】
一部の実施形態では、装置は、第2の音声出力信号を出力するための出力プロセッサを含み得る。出力プロセッサは、第2の信号をリモートデバイスに提供するように構成されてもよい。出力プロセッサは、第2の音声信号をエンコードするための音声エンコーダと、エンコードされた第2の音声信号をリモートデバイスに通信するための通信部とを含み得る。通信部は、ネットワークによって提供される通信チャネルなどの通信チャネルを介して、エンコードされた第1の音声信号を送信するように構成されてもよい。
【0019】
本発明の任意選択の特徴によれば、アナライザは、第1の音声キャプチャ信号内の単語を検出し、検出された単語に応じて、発話特性のうち少なくとも第1の発話特性を決定する。
【0020】
これにより、多くの実施形態およびシナリオにおいて、パフォーマンス、動作、および/またはユーザ体験が改善する可能性がある。これにより、適切な話者カテゴリの実用的な、かつ/または典型的にはより正確な判定ができる可能性がある。
【0021】
本発明の任意選択の特徴によれば、アナライザは、検出された単語の自然言語処理(NLP)に応じて、発話特性のうちの第1の発話特性を決定する。
【0022】
これは、多くの実施形態および場合において動作および/またはパフォーマンスを改善し得る。
【0023】
本発明の任意選択の特徴によれば、第1および/または第2のユーザの特性は、ユーザの少なくとも1つの情報カテゴリへの許容されるアクセスの程度を示すアクセス権限特性であってもよい。
【0024】
本発明の任意選択の特徴によれば、アダプタは、第1の話者カテゴリに応じて、複数の音声キャプチャ信号のうちのどの音声キャプチャ信号が、第1の音声出力信号を生成するための組み合わせに含まれるかを選択する。
【0025】
これは、多くの実施形態および場合においてアプリケーションおよび/またはサービスを改善し得る。このアプローチは、音声出力信号を自動的に調整およびカスタマイズして、一部の話者カテゴリを除外することができる。
【0026】
本発明の任意選択の特徴によれば、音声装置は、第1の音声キャプチャ信号のセグメントを解析して、複数の内容カテゴリからセグメントの内容カテゴリを決定する内容アナライザをさらに含み、アダプタは、内容カテゴリに応じて第1の音声出力信号を調整する。
【0027】
これは、多くの実施形態および場合においてアプリケーションおよび/またはサービスを改善し得る。このアプローチは、音声出力信号を自動的に調整およびカスタマイズして、環境内の音声から一部の内容、例えば、一部の話者の特定の文/発言を除外することができる。例えば、個人情報を開示する権限のある話者以外からの個人情報は除外される可能性がある。
【0028】
本発明の任意選択の特徴によれば、アダプタは、少なくとも1つの内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントを減衰させ、少なくとも1つの他の内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントを減衰させない。
【0029】
これは、多くの実施形態および場合においてアプリケーションおよび/またはサービスを改善し得る。このアプローチにより、例えば、システムは、リモート参加者に通信されないことが望まれる音声内容を減衰またはミュートできる。
【0030】
アダプタは、具体的には、少なくとも1つの内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントをミュートし、少なくとも1つの他の内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントをミュートしないように構成されてもよい。
【0031】
本発明の任意選択の特徴によれば、減衰されるセグメントの表示を提示するためのユーザインターフェースがある。
【0032】
これは多くの実施形態において、動作およびユーザ体験の向上をもたらし得る。
【0033】
本発明の任意選択の特徴によれば、分類器が、音源の音声キャプチャ信号の周波数分布に応じて、音源の署名を生成する署名生成器と、音源に対して決定された話者カテゴリにリンクされた音源の署名を保存する記憶部と、を含み、署名生成器は、第1の音源が検出されたことに応じて、第1の音源の第1の署名を生成し、分類器は、第1の署名と、記憶部内に保存されている署名とを照合し、保存されている署名にリンクされた話者カテゴリに応じて第1の音源の第1の話者カテゴリを決定する。
【0034】
これにより、多くの実施形態においてパフォーマンスおよび動作が改善される可能性があり、特に、より高速かつ/またはより正確な話者分類が可能になる可能性がある。
【0035】
本発明の任意選択の特徴によれば、音声キャプチャ装置は新しい音源を検出し、ビームステアリング装置は、新しい音源の検出に応じて、音声ビームを、以前の音源に向けられた状態から、新しい音源に向けられた状態に切り替え、以前の音源の話者カテゴリに応じて、ビームを向ける複数の音源から以前の音源を選択する。
【0036】
これにより、多くの実施形態において、パフォーマンスおよび/または動作が改善される可能性があり、特に、アクティブな話者の変化に対する適応が改善され、および/または高速化される可能性がある。
【0037】
本発明の任意選択の特徴によれば、音声装置はさらに、現在アクティブな発話信号を含むアクティブな音声キャプチャ信号を検出する検出器と、アクティブな音声キャプチャ信号の音源に割り当てられた話者カテゴリの表示を提示するユーザインターフェースと、を含む。
【0038】
これは多くの場合において動作および/またはユーザ体験の向上をもたらし得る。
【0039】
本発明の任意選択の特徴によれば、音声生成器は、第1の話者カテゴリに応じて、音声キャプチャ信号の少なくとも1つの組み合わせ重みを調整する。
【0040】
これは多くの場合において動作および/またはユーザ体験の向上をもたらし得る。
【0041】
本発明の任意選択の特徴によれば、音声キャプチャ装置は可変音声ビームを生成し、ビームステアリング装置は、可変音声ビームを変化させて潜在的な新しい音源を検出し、潜在的な新しい音源と、複数のビームのうちのいずれかのビームが向けられている音源とが一致するか否かを判定し、一致するか否かの判定は、可変音声ビームの特性、および複数の音声ビームのうちの音声ビームの特性と、可変音声ビームの音声キャプチャ信号の特性、および複数の音声ビームの音声キャプチャ信号の特性とのうちの少なくとも1つの比較に応じて行われ、一致が検出されない場合、音声ビームを以前の音源から潜在的な新しい音源に向ける。
【0042】
これは多くの場合において動作および/またはユーザ体験の向上をもたらし得る。
【0043】
本発明の一態様によれば、音声装置の動作方法が提供され、方法は、複数の音声ビームを形成し、複数の音声ビームの各音声ビームのために音声キャプチャ信号を生成することによって、環境内の音声をキャプチャするステップと、複数の音声ビームの各音声ビームを異なる音源に向けるステップと、少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定するステップと、発話特性に応じて、第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定するステップと、第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第1のユーザのための第1の音声出力信号を生成するステップと、第1の話者カテゴリ、および第1のユーザの特性に応じて第1の音声出力信号を調整するステップと、を含む。
【0044】
本発明の上記および他の態様、特徴、および利点は、以下に記載される実施形態を参照しながら説明され、明らかになるであろう。
【図面の簡単な説明】
【0045】
以下、本発明の単なる例に過ぎない実施形態について、以下の図面を参照しながら説明する。
【
図1】
図1は、音声配信を用いた使用シナリオの例を示す。
【
図2】
図2は、本発明の一部の実施形態に係る装置の要素の例を示す。
【
図3】
図3は、本発明の一部の実施形態に係る装置において使用される可能性があるナレッジグラフの例を示す。
【
図4】
図4は、本発明の一部の実施形態に係る装置のための分類器の要素の例を示す。
【
図5】
図5は、本発明の一部の実施形態に係る装置のためのビームフォーマの要素の例を示す。
【
図6】
図6は、会話のコンテキストの展開の例を示す。
【
図7】
図7は、会話のコンテキストの変化を検出するためのアプローチの例を示す。
【発明を実施するための形態】
【0046】
図1は、音声配信/通信システムによって人々の間の分散型インタラクションがサポートされる構成およびアプリケーションの例を示す。この例では、様々な人々101のグループが部屋103内にいて、音声配信/通信装置105が、1つ以上のリモートデバイス/参加者107との通信をサポートする。この例では、音声通信装置105は、それぞれが1人以上のリモート参加者をサポートする複数のリモート音声デバイス107と通信するように構成されている。場合によっては、リモート音声デバイス107は、受信した音声データをレンダリングおよび再生する機能と、音声をキャプチャして、音声通信装置105に送信するのに適した音声データとしてエンコードする機能とを単純に備えてもよい。例えば、リモート音声デバイス107は、比較的複雑性の低い会議デバイスであってもよい。他の実施形態では、ビデオ通信をサポートする、ユーザにデータを提示するなどの機能を備えたデバイスを含む、より複雑なデバイスが使用されてもよい。
【0047】
例示的なシナリオとして、部屋103は、多数の異なる人々が存在する可能性がある手術室または診察室であってもよい。これらの人々は様々な役割および機能を有することができ、例えば、患者、外科医、1人以上の看護師、患者の親族、技術サポートスタッフなどを含み得る。現在のアクティビティは、例えば、医療専門家、コンサルタント医、技術サポートスタッフ、患者の関係者などのリモート参加者によってさらに支援される可能性がある。
【0048】
別の例示的なシナリオとしては、例えば部屋103にある技術機器を保守または修理するなどの目的で、多数の人々が存在し得るリモートサービスアプリケーションが挙げられる可能性がある。存在する人々は、日常業務を行う作業者、現場技術エンジニア、監督者などを含む可能性がある。シナリオは、離れた場所にいる人々、例えば、機器の様々な部分についての1人以上の技術専門家、運用サポートエンジニアなどによって支援される可能性がある。
【0049】
さらに別の例としては、被告人または証人などの参加者への音声ベースのリンクを備えた裁判所が挙げられる可能性がある。
【0050】
このようなシナリオおよび類似のシナリオでは、複数の人々が同じ場所に集まっており、離れた場所にいる参加者と連携し、グループとして協力して作業し、様々な役割および専門知識を有する多様な人々からの意見および参加を必要とする複雑で場合によっては重要なタスクを実行することがしばしばある。これは、効率的な作業およびやり取りにおいて重要となる音声配信/通信システムによって支援される。
【0051】
このようなシナリオは多くの場合、複雑性の低い従来の音声会議システムで支援できるが、多くの状況で準最適なユーザ体験および作業を提供する傾向がある。以下では、典型的には、作業およびおよびユーザ体験を改善することができ、また典型的には、実行中のタスクの解決および完了を改善できるアプローチを提供するアプローチについて説明する。
【0052】
図2は、
図1の例の音声通信装置105に具体的に対応する可能性がある音声装置の一例を示す。
【0053】
図2の音声通信装置105は、環境内の音声をキャプチャするように構成された音声キャプチャ装置201を含み、この具体例では、部屋103内の音声をキャプチャするよう構成されている。
【0054】
音声キャプチャ装置201は、複数の音声ビームを形成し、通常は音声ビームごとに、音声キャプチャ信号を生成するように構成されている。
【0055】
音声の指向性キャプチャを提供する音声ビームを生成するための様々なアプローチおよびアルゴリズムが知られていることが理解されよう。例えば、典型的には、指向性音声キャプチャは、例えば一列に並べられた、複数のマイクロフォン/音声キャプチャ要素を含むマイクロフォンアレイを使用して実現され得る。当業者には良く知られているように、複数の異なるマイクロフォン信号に適切な位相シフトを適用し、これらを組み合わせることによって、指向性音声キャプチャを形成することができる。各キャプチャ信号は、マイクロフォンアレイから形成される音声ビームに対応する。この例では、音声キャプチャ装置201は、このような組み合わせ信号を複数、生成するように構成されてもよく、各組み合わせ信号は、ビームに対応する音声キャプチャ信号である。各マイクの重み(位相)を動的に変更することによって、音声ビームが動的に変更されてもよい。
【0056】
他の実施形態では、指向性音声キャプチャのための他のアプローチが使用され得ることを理解されたい。例えば、一部の実施形態では、複数の指向性マイクロフォンがそれぞれ音声キャプチャ信号を生成し、機械式のモータを使用して、指向性マイクロフォンの対応するビームの方向が動的に変更されてもよい。
【0057】
音声通信装置103は、さらに、音声キャプチャ装置201によって形成された音声ビームの方向を制御するように構成されたビームステアリング装置203を含む。この装置は、具体的には、各音声ビームを音源に向けるように、典型的には異なる音源に向けるように構成されている。
【0058】
音声ビームを音源に向けるための様々な技術が知られており、これらの技術には、音源の検出用の技術および検出後の音源を追跡するための技術の両方が含まれる。ビームステアリング装置203は、任意の適切なアルゴリズムを使用することができ、具体的には、多くの実施形態では、マイクロフォンアレイからのキャプチャされた信号のビームフォーミング組み合わせの重みを動的に調整するアルゴリズムを使用することができる。
【0059】
したがって、音声キャプチャ装置201およびビームステアリング装置203は、環境内の音源に向けられる複数の音声ビーム内の複数の音声キャプチャ信号をキャプチャする機能を実装してもよい。したがって、特定の音声ビームの音声キャプチャ信号は通常、ビームによってキャプチャされた音源を表す。
【0060】
音源は、具体的には部屋にいる人に対応する可能性もあれば、例えば、場合によっては部屋に存在し得る他の音源を含む可能性もある。一部の実施形態では、例えば複雑な発話検出を使用するか、または例えばより単純な特性(例えば、周波数分布が発話から予想されるものと一致するかどうかなど)に基づいた複雑性の低い検出を使用して、人間の発話に対応する音源を区別して選択するための追加の回路が含まれてもよい。他の実施形態では、ビームは単純に、例えばより強力な音源に向けられてもよく、これによって部屋の中の話者がキャプチャされるとみなされてもよい(また、1つ以上のビームが話者以外の音源を拾うことがアプリケーションにとって許容可能であるか、さらには有利である可能性がある)。
【0061】
音声キャプチャ装置201は、音声キャプチャ装置201からの複数の音声キャプチャ信号を組み合わせて音声出力信号を生成するように構成された音声生成器205に結合されている。一部の実施形態では、音声キャプチャ信号は、音声キャプチャ信号の数よりも少ない数の(サブ)信号またはチャネルにダウンミックスされることによって組み合わされてもよい。例えば、音声キャプチャ信号は、単一のモノラルまたはステレオ信号に組み合わされてもよい。その後、音声生成器205は、ダウンミックス信号をエンコードすることによって、エンコードされた組み合わせ信号を生成することができる。一部の実施形態では、ダウンミックス信号は、個々の音声キャプチャ信号を復元するためのパラメトリックアップミックスデータを伴う可能性がある。
【0062】
一部の実施形態では、個別にエンコードされた音声キャプチャ信号を含み、エンコードされたデータが、例えば単一のビットストリームに組み合わされた、エンコードされた組み合わせ信号が生成されてもよい。
【0063】
この例では、音声生成器205は、リモートデバイスと通信するように構成された通信ユニット207に結合されている。通信ユニット207、任意の適切な通信アプローチを使用して、リモートデバイス107との通信リンクを確立することができる。一部の実施形態では、通信リンクは、例えば直接無線通信リンクまたは有線リンクなどの直接(通常は双方向)リンクであってもよい。しかし、ほとんどの実施形態では、リンクは、具体的には汎用ネットワークであり得るネットワークを介して形成され得、多くの実施形態ではインターネットを介して形成されてもよい。したがって、多くの実施形態では、通信ユニット207は、適切なネットワーク技術/規格を使用してリモートデバイス107との通信を可能にするネットワークインターフェース、例えば、具体的にはインターネットへのインターフェースを含むことができる。
【0064】
この具体例では、音声生成器205は、エンコードされた音声出力信号を生成して通信ユニット207に送り、通信ユニット207は、その信号を、インターネットを介して1つ以上のリモートデバイス107に送信することができる。これにより、キャプチャされた音声がリモートデバイス107によってレンダリングされ、リモート参加者が部屋103からの音声を聞くことができる。
【0065】
この具体例では、リモートデバイス107は、ローカル音声をキャプチャし、それを音声通信装置103に送信する機能を有する。例えば、各リモートデバイス107は、対応する参加者からの音声をキャプチャし、音声をエンコードし、エンコードされた音声データを音声通信装置103に送信するマイクロフォンを有してもよい。通信ユニット207は、リモートデバイス107からエンコードされた音声を受信し、受信した音声信号をレンダリングできる可能性があるレンダラ209にエンコードされた音声を送信する。レンダリングされた音声は、部屋103内に音声を発するスピーカなどのローカルサウンドトランスデューサに送られる可能性がある。
【0066】
したがって、一部の実施形態では、システムは、リモートデバイス/メイン環境/部屋内の参加者からの音声を受信してレンダリングする機能を含む可能性がある。したがって、双方向音声配信および共有が可能になる。しかし、他の実施形態では、リモートデバイス107のうちの1つ以上は音声を記録または提供しない可能性があり、実際、一部の実施形態では、音声通信装置103は、リモートデバイスから音声を受信する機能、または音声をレンダリングする機能を有さない可能性があることが理解されよう。それでも、このアプローチは、例えば、リモート参加者が他の手段で通信する場合、例えば部屋内のディスプレイに表示可能なテキストを入力する場合などにおいて、非常に有用である可能性がある。他の例では、リモートデバイス/参加者から部屋への通信は提供されないが、例えば、リモート参加者は部屋でのアクティビティを支援するアクションを実行することができる(例えば、機器のオン/オフを選択的に切り替える、テスト入力を提供する、または制御を行う(例えば、部屋103から受信した音声に基づいてリモート負荷を制御する))。
【0067】
一部の実施形態およびシナリオでは、音声配信は、例えばリモート参加者が部屋で起こっていることを見ることを可能にする付随するビデオ配信などの他の通信およびインタラクションによって補完されてもよい。
【0068】
ただし、この具体例では、音声通信装置103は、音声をキャプチャしてリモートデバイス107に送信するようにだけ構成されているわけではない。音声通信装置103は、出力音声を選択的に調整する機能、具体的には、リモートデバイス107に送信される音声を調整する機能をさらに有する。
【0069】
音声キャプチャ装置201は、
図2の音声通信装置103内に含まれており、アナライザ211に結合されている。アナライザ211は、1つ以上の音声キャプチャ信号を解析して、対応する音声キャプチャ信号の音声の発話特性を決定するように構成されている。
【0070】
例えば、アナライザ211は、音声キャプチャ信号の発話内容を検出するように、具体的には、各音声キャプチャ信号を解析し、各音声キャプチャ信号の発話内容特性を決定するように構成され得る。アナライザ211は、音声認識を実行して、1つ以上の音声キャプチャ信号内の話された単語を検出するように具体的に構成されてもよい。
【0071】
アナライザ211は、音声キャプチャ信号の音源の話者カテゴリを決定するように構成された分類器213に結合されている。典型的には、分類器213は、全ての音声キャプチャ信号、または例えば、発話信号であると考えられる全ての音声キャプチャ信号について、話者カテゴリを決定するように構成される。例えば、分類器213は、個々の音声キャプチャ信号が、話者という形態の音源からの音声に対応すると考えられるか、または非話者という形態の音源からの音声に対応すると考えられるかを判定するために評価される発話検出基準を含む可能性がある。発話を検出するための様々な技術が知られており、任意の適切なアプローチを使用することができる。複雑性の低い例として、分類器213は単純に、アナライザ211の音声認識プロセスによって時間単位あたりに検出された単語の数に基づいて、所与の音声キャプチャ信号によってキャプチャされた音源が発話であるか否かを判定してもよい。次に、分類器213は、発話をキャプチャしたと考えられる各音声キャプチャ信号の発話カテゴリを判定する。したがって、分類器213は、所定のカテゴリのセットを有することができる。分類器213は、音声キャプチャ信号のうちの1つ、複数、または全てのそれぞれについて、所定のカテゴリのセットからカテゴリを選択できる。したがって、音声信号をキャプチャしたと考えられる各音声キャプチャ信号には、(典型的には事前に決定された)カテゴリのセットのうちのあるカテゴリが割り当てられる可能性がある。
【0072】
分類器213はアダプタ215に結合されており、アダプタ215はさらに音声生成器205に結合されている。アダプタ215は、音声キャプチャ信号に対して決定された話者カテゴリに基づいて(典型的には、全ての音声キャプチャ信号に対して決定されたカテゴリに基づいて)音声出力信号を調整するように構成されている。これに対応して、音声通信装置103は、部屋内の音源に向けた音声ビームフォーミングから得られる音声キャプチャ信号に話者カテゴリを関連付けるように構成されている可能性がある。その後、これらの話者カテゴリに基づいて、リモートデバイスに送信される音声を調整することができる。したがって、話者のカテゴリに基づいて、リモート参加者に提供される音声を調整/修正することができる。
【0073】
一例として、音声生成器205は、キャプチャされた音声の発話特性に基づいて、具体的には、検出された単語などから決定される認知的発話内容に基づいて、その音声ビームに対して決定された話者カテゴリに基づいて、個々の音声キャプチャ信号またはそれらの一部を選択的に減衰させることができ、具体的にはミュートすることができる。
【0074】
一部の実施形態では、アダプタ215は、検出された話者カテゴリに基づいて音声出力信号を生成するための組み合わせに、音声キャプチャ装置201によって生成された音声キャプチャ信号のうちのどれを含めるかを選択するように構成され得る。
【0075】
音声生成器205は、例えば、組み合わせ音声信号からいくつかの話者カテゴリを除外するように構成されてもよい。したがって、システムは、部屋内の個々の話者を追跡するビームを形成し、決定された話者カテゴリに基づいて、ビームの音声キャプチャ信号が話者カテゴリに基づいて含められるか、または除外される組み合わせ出力音声信号を生成することができる。よって、システムは、提供された音声を自動的に調整して、アクティビティでの役割などに基づいて、一部の話者のみを含め、他の話者を除外することができる。例えば、リモート参加者は診察室にいる医療専門家の声は聞こえるが、患者または親族の声は聞こえない可能性がある。
【0076】
多くの実施形態では、アナライザ211は、音声キャプチャ信号内の単語を検出するように構成される可能性がある。アナライザ211はこれらの単語に基づいて、例えば、検出された単語の数、単語の長さ、単語が分類されるカテゴリのカテゴリ(例えば、検出された単語を、関連付けられた単語カテゴリとともにメモリに保存されている単語と照合することによって)などの発話特性を生成できる。多くの実施形態では、検出された単語が、分類器213に供給される発話特性としてそのまま使用され、検出された単語に基づいて分類が実行されてもよい。
【0077】
キャプチャされた発話内の単語およびフレーズを判別するための音声認識としては多くの技術およびアルゴリズムが知られており、アナライザ211は任意の適切なアプローチを使用できることが理解されよう。
【0078】
多くの実施形態では、音声通信装置103は、音声認識を実行し、発話からテキストへの変換を実行し、その後の処理を生成されたテキストに基づいて行うように構成されてもよい。場合によっては、音声キャプチャ信号の修正もテキストに基づいて行われ得る。例えば、テキストが処理および調整された後に、対応する音声キャプチャ信号の修正バージョンであると具体的に考えることができる音声信号を生成する可能性があるテキストから発話への変換動作が実行されてもよい。テキストの調整および修正、したがって対応する音声キャプチャ信号の調整および修正は、その音声キャプチャ信号に関して検出された話者カテゴリに基づいて行われてもよい。
【0079】
多くの実施形態では、検出された単語に基づく話者カテゴリの決定は、検出された単語の自然言語処理(NLP)に基づくことができる。例えば、アナライザ211によって検出された単語(およびフレーズ)がテキストに変換された後、話者カテゴリの決定に使用可能な発話の特性を決定できるNLPプロセスによって処理されてもよい。
【0080】
具体例として、音声キャプチャ信号から検出された発話は、分類器213のNLPモジュールに提供され、分類器213は、NLPベースの分類アルゴリズムに基づいて話者カテゴリを決定する処理を行うことができる。各話者カテゴリは、例えば、医療の例ではコンサルタント医、外科医、患者、看護師、親族、技術サポート、ラボ技術者など、または技術サービスの例では、ユーザ、サービスエンジニア、専門家、オペレータなど、アクティビティにおける役割に対応する可能性がある。
【0081】
NLPベースの分類モデルは話者カテゴリ、具体的には各参加者の役割を判定するように構築することができる。
【0082】
例えば、このようなモデルを作成するために、全ての可能な参加者および役割を表す適切なデータを使用して基本モデルが訓練されてもよい。訓練データの準備/生成は、各特定の役割に固有のデータポイントを含む訓練データセットを使用して実装されてもよい(例えば、プロファイルが患者および家族である場合、処置/実験室にいるときは技術的な単語/フレーズを使用することはなく、主に病気に関連する単語およびフレーズを使用する、というガイド/ルールを使用できる(それらの単語またはフレーズから導出された感情も追加パラメータとして使用できる))。このようなプロファイル固有のデータが準備されると、そのようなデータを訓練データセットとして使用して分類モデルを構築できる。
【0083】
基本モデルを訓練するために、関与者固有データが使用されてもよい。関与者固有データは、関与者のカテゴリを表す特定の単語またはフレーズ(診断検査室内での会話中に使用される可能性のあるもの)を含む可能性がある。このような単語、フレーズ、文は、一意的な特徴ベクトルを抽出するためにNLP技術(ステミング、品詞(POS)タグ付け、単語の埋め込みなど)を使用して処理される。これらの特徴ベクトルは、関与者分類のために機械学習モデルを訓練するために使用でき、モデルの作成にはニューラルネットワークアーキテクチャが使用されてもよい。
【0084】
モデルの生成後(そして、適切に訓練/調整した後)、(例えば、検出された単語/フレーズ/文に対応する発話特性という形態の)音声キャプチャ信号データがモデルへの入力として使用される。典型的には、モデルへの入力はテキストの形態であり、検出された発話がアナライザ211によって適切なテキストに変換されていてもよい。次に、モデルは、音声キャプチャ信号の音源をカテゴリ/役割のうちの1つに分類し得る。
【0085】
例えば、分類器213は、訓練されたモデルに基づいて、(発話から変換された)テキストから特徴ベクトルを抽出することによって話者カテゴリを決定し、それを、関与者を識別するためのモデルへの入力として使用できる。関与者が患者の家族である場合、特徴ベクトルは、彼/彼女に特有の一意の値を含んでおり、分類器モデルはそのような一意の特徴値を識別するように訓練されている。
【0086】
一部の実施形態では、音声通信装置103は、上記のように、生成された出力音声信号に含まれるべき音声キャプチャ信号、したがって話者を選択するように構成されてもよい。この選択は動的に行われるため、その時点での状況に応じて修正および変更される可能性がある。
【0087】
一部の実施形態では、音声通信装置103は、音声キャプチャ信号のセグメントを解析し、それらのセグメントの内容カテゴリを決定するように構成された内容アナライザ217を有する。したがって、個々のビーム/音声キャプチャ信号/音源/話者について話者カテゴリが決定されることに加えて、音声通信装置103はさらに、適切な内容クラスに従って音声/発話の個々のセグメントを分類することができる。
【0088】
アダプタ215は、さらに、決定された内容カテゴリに基づいて音声出力信号を調整するように構成されてもよい。
【0089】
多くの実施形態では、アダプタ215は、セグメントに対して決定された内容カテゴリに応じて、音声セグメントのレベルを調整するように、具体的にはセグメントを減衰させるように構成されてもよい。多くの実施形態では、アダプタ215は、ある内容カテゴリに割り当てられたセグメントを減衰させる一方、別のカテゴリに割り当てられたセグメントを減衰させないように音声生成器205を制御するように構成されてもよい。
【0090】
したがって、このような実施形態では、音声通信装置103は、例えば、特定の内容カテゴリおよび特定の話者カテゴリに対応する特定の音声セグメントを決定し、そのようなセグメントを減衰させるように、しばしば完全にミュートするように構成されてもよい。
【0091】
例えば、リモートサービスアプリケーションでは、音声通信装置103は、機密である可能性があり、リモートサービスエンジニアが第三者に伝えることを許可されていない可能性がある特定の詳細な情報にリモートサービスエンジニアが言及する可能性があることを検出する可能性がある。しかし、例えばサポートされているローカルクライアントは、このような情報を有効に開示できる可能性があり、例えば、クライアントは情報を開示する権限を持っている可能性がある。音声通信装置103は、このような制限された開示物に対応するものとして分類されたセグメントを検出し、そのような情報を開示する権限のない話者カテゴリに関連付けられた音声キャプチャ信号内にそれらのセグメントが存在する場合は、音声出力信号からそれのセグメントを削除してもよい。しかし、話者カテゴリが情報開示を許可されている話者カテゴリに対応するものである場合は、セグメントは削除されない。
【0092】
別の例として、医療のシナリオでは、内容カテゴリのうちの1つが個人情報に関連付けられてもよく、したがって名前、住所、電子メール、アカウント番号、日付(誕生日)などを表すセグメントにこの内容カテゴリが割り当てられてもよい。アダプタ215は、出力ストリームからこのような個人情報を削除するように音声生成器205を制御することができる。例えば、患者は、検査(例えば、認知症検査)の一環として個人データの提供を求められることがあるが、そのような情報は音声出力信号から削除される。しかし、専門家または医師が名前または電話番号を含めた場合(例えば、親戚との会話において)、この情報は音声出力信号に含まれる。
【0093】
多くの実施形態では、話者カテゴリは、情報を開示するための複数の異なる権限レベルに対応する可能性がある。内容カテゴリは、複数の異なる機密レベルに関連付けられてもよい。したがって、多くの実施形態では、話者カテゴリは、その話者カテゴリの話者が開示権限を有する異なる内容カテゴリのセットに関連付けられる可能性がある。アダプタ215は、音声キャプチャ信号/話者の話者カテゴリが情報開示権限を有さない内容カテゴリに割り当てられたセグメントをミュートするように構成されてもよい。
【0094】
内容情報を判定するための、および(例えば、話された単語および文の)内容を識別するための様々なアルゴリズムおよびアプローチはよく知られており、当業者はそのような任意の適切な既知のアプローチを使用できることが理解されよう。
【0095】
特に、多くの実施形態では、NLP処理を使用して内容カテゴリを決定することができ、実際には、話者の分類に使用されるのと同じNLPモジュールおよび処理を使用することが多くの実施形態で可能である。例えば、検出された単語をテキストに変換し、得られたテキストにNLP処理を適用して音声認識が実行されてもよい。適切なNLP処理技術の例としては、トークン化、ステミング、単語の埋め込み、コンテキストの埋め込みなどが挙げられる。
【0096】
より詳細には、NLPモジュールは最初に、言論の自由のための匿名化を実行してもよい。例えば、テキスト匿名化技術を適用して、機密情報を含むフレーズの一部が削除されてもよい。例えば、患者の名前、年齢などへの言及である。この匿名化は、全ての識別子の削除から、データの一部を匿名化まで様々な深度レベルを有することができる。このアプローチにより、アプリケーションの優先条件に応じて様々な許可レベルを実装できる。
【0097】
匿名化のための単語/フレーズの検出は、テキスト/文に対してエンティティ認識(Named Entity Recongition、NER)を実行し、名前エンティティ/単語を人物、組織、場所などの事前に定義されたカテゴリに分類することによって実現できる。
【0098】
このようなNER法は理想的に訓練されていない可能性があり、よって重要なデータが誤って分類される可能性がある(例えば、診断またはサービスなどに関連する重要なものであり、ミュートせずに伝達されるべき発話)。一部の実施形態では、ローカル参加者とリモート参加者との間の技術的な会話に固有のナレッジグラフ(ノード間の関係を含む)を使用することで、この問題を軽減できる可能性がある。このようなグラフの例が
図3に示されている。NER識別後、除外されるセグメントの識別された単語をこのようなナレッジグラフを使用してさらに確認し、グラフのノードとして見つかった場合は、NER識別が変更されてもよい。これにより、匿名化プロセス中に重要なデータ/情報が失われるリスクが減る可能性がある。
【0099】
匿名化後、すなわち、削除すべきセグメントが識別された後、音声出力信号に含めるセグメントの音声キャプチャ信号セグメント(例えば、音声信号/波形)を組み立てて結合することで、連続した音声ストリームが形成されてもよい。得られた音声出力信号はリモートデバイス/参加者107に送信されてもよい。
【0100】
例えば、音声認識は音声キャプチャ信号を検出して音声フラグメントに分割することができ、音声フラグメントは、NLPモジュールに送られるテキストによって表される。各セグメントには、話者カテゴリおよび内容カテゴリが割り当てられ得る。各セグメントは、例えばタイムスタンプに関連付けられてもよい。タイムスタンプで並べ替えると、フレーズは音声フレーズでキャプチャされたチャットルームのような対話を形成する。セグメントは、例えば個々の単語であってもよく、または、セグメント内の個々の単語が、単語の始まりおよび/または終わりを識別するタイムスタンプによって示されてもよい。場合によっては一部のフラグメント/セグメントを削除しつつ、音声フラグメント/セグメントを組み合わせることによる出力信号の生成は、タイムスタンプに基づいて行われてもよい。基本的に、含められることが意図されている(例えば、機密情報を含まない、または適切な権限を持つ参加者からの)セグメントに対応する全ての音声フラグメントが組み合わせに含まれる。しかし、含められるべきではないと識別されたセグメントに対応する時間インスタンスについては、対応する音声フラグメントは組み合わせに含まれない。例えば、これらのセグメントに対応する時間間隔では、対応するビームの音声キャプチャ信号が別の音声信号に置き換えられるか、または単にゼロ信号(例えば、振幅がゼロの無音信号)に設定される可能性がある。一部の実施形態では、ミュートされるセグメントの音声キャプチャ信号は、例えば、(例えば、事前に決定された)デフォルトの音声クリップ/信号に置き換えられてもよい。例えば、音声出力信号に含めるべきではない内容が音声キャプチャ信号に含まれているセグメント中、音声キャプチャ信号を置き換えるためにホワイトノイズまたはトーン信号が使用されてもよい。
【0101】
一部の実施形態では、音声通信装置103は、最も強い音声キャプチャ信号(例えば、現在最も高いレベル/振幅)のみを出力音声信号に含めるように構成されてもよい。音声生成器205は、対象が定められたビームから、ビームの識別情報およびビームの話者カテゴリとともに、音声キャプチャ信号を受信してもよい。音声生成器205はその後、最も強い音声キャプチャ信号の話者のカテゴリを判定し、したがって、具体的には現在最も強い音源/話者の役割を判定してもよい。カテゴリに応じて、アダプタ215は、この音声を音声出力信号に含めるように音声生成器205を制御するか、またはこの音声をリモート参加者への送信から外すか否かを制御することができる。
【0102】
多くの実施形態では、音声生成器205は、複数の異なる音声出力信号を生成するように構成されてもよい。特に、音声生成器205は、異なるリモートデバイス/参加者107に対して異なる音声出力信号を生成する可能性がある。具体的には、音声生成器205は、第1のリモート参加者用の出力音声信号と、第2の参加者用の第2の異なる出力音声信号を生成するように構成されてもよい。その後、信号は、対応する異なるリモートデバイス107に送信される可能性がある。異なる音声出力信号の生成は、例えば、異なる音声キャプチャ信号、具体的には異なるセグメント/音声フラグメントをダウンミックスに含めることによって2つの出力音声信号を得ることによって実行されてもよい。
【0103】
アダプタ215は、異なるユーザ/リモート参加者に対して音声出力信号を個別に調整するように構成されてもよい。この調整は、話者カテゴリおよびユーザの特性に応じて行われてもよい。例えば、ユーザに権限または許可のレベルが関連付けられ、各ユーザに提供される音声出力信号はこのレベルに依存してもよい。例えば、参加者は部屋内の全ての会話を聞くための高レベルの許可を有する可能性がある(例えば、裁判所である部屋の裁判所速記者)一方、別の参加者は基本的な情報のみを聞く許可しか有していない可能性がある(例えば、一般的な関心から裁判に出席している一般市民)。アダプタ215は、例えば、1人のリモート参加者が全ての参加者からの音声を聞くことを可能にしてもよく、したがって、出力音声信号に全ての音声キャプチャ信号を含めてもよい。しかし、より低いレベルの許可を有する別のユーザの場合、一部の話者カテゴリのみが許可され、別の話者カテゴリに属すると識別された話者の音声キャプチャ信号はミュートされてもよい。例えば、裁判所速記者は全ての音声を聞くことができるが、一般市民は一部の話者の音声しか聞くことができず、例えば、保護下にある証人の音声は聞こえない可能性がある。
【0104】
多くの実施形態では、音声出力信号を調整するために使用されるユーザの特性は、ユーザの少なくとも1つの情報カテゴリへの許容されるアクセスの程度を示すアクセス権限特性であってもよい。
【0105】
一部の実施形態では、アダプタ215は、音声セグメントの内容カテゴリに応じて音声出力信号を個別に調整するようにさらに構成されてもよい。例えば、一部のリモート参加者は個人情報を聞く権限を有する一方、他のリモート参加者はそのような情報を聞く権限を持っていない可能性がある。この場合、個人情報を含む音声セグメントは、第2カテゴリのリモート参加者用の音声出力信号から削除されるが、第1カテゴリのリモート参加者用の音声出力信号からは削除されない可能性がある。
【0106】
アダプタ215は任意の適切な方法で調整を実装できることが理解されよう。例えば、一部の実施形態では、固定ルールベースのアプローチが使用されてもよく、ルールは、音声出力信号に含まれるべき内容カテゴリと話者カテゴリとの組み合わせ、および音声出力信号から除外されるべき組み合わせを定義してもよい。ユーザ/リモート参加者の特性ごとに別々のルールが存在してもよい。例えば、ユーザ/リモート参加者カテゴリのセットが定義され、カテゴリごとに特定のルールのセットが実装されてもよい。リモート参加者は(例えば、ユーザによって、またはセッションのオペレータ/コントローラによって設定された)特定のカテゴリに関連付けられてもよく、そのユーザの音声出力信号を生成する際、その特定のカテゴリのルールがアダプタ215によって使用されてもよい。
【0107】
多くの実施形態では、音声通信装置103は、追跡される音源、具体的には話者を動的に調整および変更するための様々な技術を採用するように構成されてもよい。
【0108】
多くの実施形態では、音声通信装置103は、音声キャプチャ信号/ビームの音源ではない音源を検出する機能を備えていてもよい。すなわち、現在どのビームによっても追跡されていない新しい音源を検出してもよい。具体的には、音声キャプチャ装置201は、現在、いずれの音声キャプチャ信号または形成されたビームにも関連付けられていない新しい音源を検出する可能性がある。
【0109】
一例として、音声キャプチャ装置201は、ビームステアリング装置203の制御下で方向を変更し、新しい音源を探すように制御可能な可変音声ビームを生成できる。このような音声ビームは探査ビームまたは可変ビームとも呼ばれる一方、音源を追跡する音声ビームは対象が定められたビームとも呼ばれる可能性がある。
【0110】
音声キャプチャ装置201は、強い音声信号が検出された場合に一時停止する可能性がある回転ビームまたは移動ビームを生成してもよい。このような場合、回転ビームの音声キャプチャ信号は、現在音源を追跡しているビームの音声キャプチャ信号と相関を有する可能性がある。相関が十分に高く、例えばビーム方向が既存の音声キャプチャ信号のビーム方向と十分に近い場合、音源は新しい音源ではなく、既に追跡されている音源であるとみなされる。しかし、相関が低いまたは方向が大きく異なる場合は、新しい音源が検出されたとみなされる。
【0111】
したがって、検出された潜在的な新しい音源と、音声ビームが向けられている、すなわち対象が定められたビームによって追跡されているいずれかの音声ビームとが一致するか否かが判定されてもよい。一致するか否かの判定は、可変音声ビームの特性を対象が定められたビームの特性と比較する、および/または可変音声ビームの音声キャプチャ信号の特性を対象が定められた音声ビームの音声キャプチャ信号の特性と比較することに基づいて行われる。例えば、ビームからの音声信号が互いに対して十分に相関しており、音声ビームの方向が十分に近い場合、一致判定がなされたとみなすことができる。一致する場合、検出された音源は既に追跡されている音源であると判断され、一致しない場合は新しい音源が検出されたと判断される。
【0112】
新しい音源が検出されると、ビームステアリング装置203は、以前の音源から新しい音源に向けられるように音声ビームを切り替えるように構成されてもよい。典型的には、音源を正確に追跡するように実装できるビームの数は非常に限られており、例えば、同時に生成できるビームは5つだけである可能性がある。これにより、同時に追跡できる異なる音源の数は小さい数に制限される。音声通信装置103は、その限られた数のビームを動的に切り替えて、最も適切な音源、例えば主に最も音量が大きい音源、または例えば最もアクティブな音源を追跡するように構成されてもよい。
【0113】
しかし、
図2の音声通信装置103のアプローチでは、どの音源を追跡するかの選択は、判定された話者カテゴリにも依存する可能性がある。特に、音声ビームのうちの1つを新しく検出された音源に切り替える場合、ビームステアリング装置203は、話者カテゴリに基づいて、新しく検出された音声に割り当てるビームを選択すること、よって、ビームの割り当てを変更するために落とされる以前の音源/ビーム/音声キャプチャ信号を選択することができる。
【0114】
例えば、各話者カテゴリに優先順位を割り当てて、話者カテゴリを相互にランク付け/順序付けしてもよい。例えば、手術室の場合、外科医の話者カテゴリが最優先され、次に医療専門家の話者カテゴリ、次に患者の話者カテゴリ、次に医療サポートスタッフの話者カテゴリ、最後に親族の話者カテゴリという優先順位が割り当てられてもよい。裁判所の場合、裁判官の話者カテゴリに最も高い優先順位が割り当てられ、次に弁護士の話者カテゴリ、次に証人の話者カテゴリ、最後に他の全ての役割を含む話者カテゴリという優先順位が割り当てられてもよい。
【0115】
ビームステアリング装置203は、具体的には、現在割り当てられているビームのうち最も低い優先順位に属する話者/音源に割り当てられているものビームが選択されるように、優先順位の低い方から割り当て変更されるビームを選択することができる。
【0116】
このようなアプローチにより、最も重要な情報がリモート参加者に確実に提供されるようにしつつ、シナリオの展開および変化に対する利用可能なビームの適応を改善することができ、典型的にはより迅速に適応できるようになり、具体的には、部屋内に存在するか、または部屋内でアクティブな話者の変化に対して効率的に適応できるようになる。
【0117】
一部の実施形態では、音声通信装置103は、新たな音源への適応を容易にし、かつ/または改善するための機能をさらに有してもよい。特に、音声通信装置103は、現在追跡/検出されている音源に関連するデータを保存する手段を含んでもよく、保存されるデータは、割り当てられた話者カテゴリの表示を含む。新しい音源/信号が検出されると、音声通信装置103は、保存されたデータを検出して、その音源が以前に追跡されたものかであるか否かを評価することができる。そうである場合、保存された話者カテゴリが抽出され、例えばその新しい音源の初期話者カテゴリとして使用され得る。
【0118】
一例として、
図4に示されるように、分類器213は、上記のように話者分類を実行するメイン分類プロセッサ401に加えて、署名生成器403および署名記憶部405をさらに含む。
【0119】
署名生成器403は、音源の音声キャプチャ信号の周波数分布に基づいて、音源の署名を生成することができる。音源の署名は、音声キャプチャ信号から生成できる特有のマーク、特徴、または特性である可能性がある。異なる音源の音声キャプチャ信号の署名は異なる傾向がある。
【0120】
一例として、ある話者カテゴリに属することが検出された音声キャプチャ信号について、署名生成器403は、音声キャプチャ信号に対してFFTを繰り返し実行することによって、周波数分布を求めてもよい。得られた周波数スペクトルは平均化され、平均化された周波数スペクトルから署名が生成されてもよい。場合によっては、周波数スペクトルが直接署名として使用されてもよい。他の実施形態では、周波数スペクトルの何らかの処理/解析が実行される可能性がある。例えば、総エネルギーの70%を構成する最小の周波数間隔が求められ、署名として使用されてもよい。
【0121】
署名生成器403は、音源に対して決定された署名を署名記憶部405に保存するように構成されてもよい。署名に加えて、音源の詳細情報も保存されてもよい。具体的には、音源に対して決定された話者カテゴリが保存され、署名にリンクされる可能性がある。したがって、しばらくすると、署名記憶部405には、様々な署名および関連付けられた話者カテゴリが保存されている可能性がある。
【0122】
分類器213は、保存された署名に基づいて音源の話者カテゴリを決定するように構成されてもよい。具体的には、新しい音源が検出されると、署名生成器403は、その音源の新しい音声キャプチャ信号の署名を生成してもよい。署名生成器403は、新しい署名を、署名記憶部に保存されている署名と具体的に比較することができる。(適切な一致/類似性基準に従って)一致するものが見つかった場合、署名生成器403はリンクされている話者カテゴリを抽出し、これを新しい音源に割り当てることができる。
【0123】
場合によっては、新しい音源の話者カテゴリの決定は、単純に、一致する署名用に保存されている話者カテゴリにそれを割り当てることによって行われ得る。これは、例えば、一致度が非常に高い場合に適用される可能性がある。他の実施形態では、または一致度がより低い場合は、保存されている署名が初期話者カテゴリとして、または初期候補話者カテゴリとして使用されてもよい。このようなアプローチでは、依然として分類プロセスを実行する必要はあるが、通常、話者カテゴリを割り当てることができる前に要求される解析および評価すべき音声データが少なくなる。
【0124】
多くの実用的な例では、音声キャプチャ装置201は、例えばWO2017EP84679Aに記載されているビームフォーマなどの複数の適応型ビームフォーマを含むことができる。ビームフォーマはブロック処理に基づくものであってもよい。16kHzの音声信号の場合、典型的には256サンプルのフレームが使用されてもよい。フレームごとに、全てのビームフォーマが各自の出力を計算して、フレームに対応する音声キャプチャ信号を提供することができる。さらに、音声通信装置103は、フレームごとに、どのビームがアクティブであるか、および新しい音源に対して新しいビームを形成する必要があるか否かを判定できる。
【0125】
例えばUS7146012またはUS7602926に記載されているように、適応型ビームフォーマによって自由走行(可変)音声ビームが形成されてもよい。自由走行ビームのために生成された音声キャプチャ信号に基づいて、潜在的な新しい音源を検出できる。
【0126】
場合によっては、各フレームにおいて、複数の音声キャプチャ信号のうちの1つだけが選択される。例えば、分類、ならびに例えば音声認識および/またはNLP処理は、各フレーム内の最も強い信号に対してのみ実行されてもよい。以下の動作が使用されてもよい。
1.最も強い音源が、音源を追跡しているか、または例えば1つの方向に固定されている対象が定められたビームのうちの1つの中にある場合、自由走行ビームと対象が定められたビームとの間の距離が小さいか否かが確認され得る。そうである場合、信号対干渉比が、自由走行ビームが音源をキャプチャするのに十分に高い可能性が高く、この新しい音源を追跡するために、対象が定められたビームのうちの1つが更新されてもよい。最も強い音声キャプチャ信号、または場合によっては全ての音声キャプチャ信号がアナライザ211および分類器213に提供されてもよく、場合によってはさらに内容アナライザ217にも提供され得る。その後、これらは話者および/または内容を分類する可能性がある。
2.自由走行ビームが最も強い音源を有する場合、自由走行ビームの近くに対象が定められたビームがあるか否かが判定されてもよい(例えば、WO2017EP83680Aに開示されている距離判定アプローチを使用して)。
a.重複するビームが見つからない場合は、振りランニング可変ビームの係数を新しい対象が定められたビームにコピーすることによって新しいビームが作成される。対象が定められたビームの数が既に最大数に達している場合、まず対象が定められたビームを削除する必要がある。削除すべきビームの選択は、様々な基準に基づいて行うことができる。具体的には、上記したように、ビーム内の話者の話者カテゴリ/役割を考慮することができ(例えば、技術スタッフおよび臨床スタッフは、事務員/オフィススタッフ、患者、訪問者/家族などよりも優先される)、複数の関与者が同じ役割を有する場合の二次ステップでは、最新の期間中のアクティビティの量、アクティブ時のビーム内のエネルギー、ビーム間の距離、およびあらゆる種類の組み合わせを考慮することができる。
b.短い距離で重なり合うビームが見つけられた場合、一部の実施形態では何のアクションも実行されない。この場合、対象が定められたビームは自動的に適切な解に自身を調整できるとみなされる可能性がある。距離が長い場合は、自由走行ビームの係数を使用してビームフォーミングが再初期化されてもよい。
【0127】
図5は、対象が定められたビームがどのように生成されるかの典型例を示す。このアプローチは、望ましい信号およびノイズリファレンスを生成する適応型ビームフォーマを少なくとも含む。コヒーレントノイズまたは他の音源をキャンセルするために、第2の適応型フィルタが使用されてもよい。さらに、所望の信号をさらにきれいにするために、非線形後処理が適用されてもよい。
【0128】
多くの実施形態では、対象が定められたビーム/専用ビーム/追跡ビーム/対象が定められたビーム用のビームフォーマの構造および実装は、自由走行可変ビーム用のものと同じであり、例えば、同じフィルタ長などを使用する。しかし、調整制御は異なる可能性がある。自由走行ビームフォーマは常に最も強い音声信号に向けてビームを形成するように調整を行う一方、対象が定められたビームフォーマはより選択的な調整アプローチを用いる可能性がある。例えば、対象が定められたビームフォーマは、信号対雑音比が十分に高い場合、発話が検出された場合などにのみ調整を行う可能性がある。例えば、WO2018EP50045Aに開示されているアプローチを使用して、堅牢なアプローチを提供できる。
【0129】
多くの実施形態では、音声キャプチャ装置201は、ユーザインターフェース219、具体的には、部屋内の参加者に情報を提示できる出力ユーザインターフェース219を含む可能性がある。多くの実施形態では、音声キャプチャ装置201は、ユーザに視覚情報を提示するために使用できるディスプレイまたはディスプレイインターフェースを含み得る。
【0130】
多くの実施形態では、音声キャプチャ装置201は、様々な音源およびビームに割り当てられている話者カテゴリに関する情報を参加者に提示するように構成され得る。
【0131】
特に、多くの実施形態では、音声通信装置103は、アクティブな音声キャプチャ信号が現在アクティブな発話信号を含むことを検出するように構成された検出器221を含むことができる。例えば、検出器221は、全ての音声キャプチャ信号を継続的に評価して、信号内に現在発話が存在するか否か、したがって、追跡されている音源が話者であるか、およびその話者が現在話しているかを検出できる。
【0132】
検出器221による発話検出には様々なアプローチが使用できることが理解されよう。一部の実施形態では、発話検出は単純に、音声キャプチャ信号が所与の閾値レベルを超える音声を表すか否かを検出することによって行われる可能性がある。これは、例えば、予想される唯一の音が人の話し声であり、よってキャプチャされた音は全て発話であるとみなすことができる場合に適している可能性がある。他の実施形態では、例えば周波数スペクトル(例えば分布、高調波の存在など)、動的変化(例えば、過渡現象)などの評価を含む、より複雑なアルゴリズムが使用される可能性がある。一部の実施形態では、検出は、音声認識の結果に基づいて行われる可能性がある(ただし、これは多くの場合において遅すぎる可能性がある)。発話検出のための様々なアルゴリズムが知られており、任意の適切なアプローチを使用できることが理解されるだろう。
【0133】
ユーザインターフェース219は、現在どの音声キャプチャ信号/音声ビーム/音源がアクティブな話者であるとみなされるかの通知を受信し得る。その後、これらのキャプチャ信号/音声ビーム/音源に割り当てられた話者カテゴリの表示が提示/出力されてもよい。例えば、一部の実施形態では、ディスプレイは、現在アクティブに話している人々の全ての役割のリストを表示し得る。
【0134】
一部の実施形態では、検出器221は、現在どの音声キャプチャ信号が発話を含むか、したがって現在誰が話しているかを検出するだけでなく、さらに、ただ1人の支配的な話者を決定するように構成されてもよい。例えば、最も強い信号が検出された音声キャプチャ信号が決定され、主要な話者であるとみなされる可能性がある。このようなアプローチは、例えば裁判所など、一度に1人の人物が話すような場合において高い信頼度を提供する傾向がある。
【0135】
このような場合、ユーザインターフェース219は、例えば、複数の話者ではなく、1人の話者の話者カテゴリの表示を提示するように構成されてもよい。このようなシナリオでは、現在の話者の役割を示す表示がユーザに表示され得、異なる参加者が話すにつれてこれが動的に変化し得る。
【0136】
一部の実施形態では、音声生成器205は、話者カテゴリに基づいて単一の音声キャプチャ信号/音声ビーム/音源/話者を選択するように構成されてもよい。例えば、複数の話者が現在アクティブであることが検出され、具体的には、複数の音声キャプチャ信号が現在音声信号を含んでいることが検出された場合、話者カテゴリに基づいて単一の話者/信号が選択されてもよい。例えば、上記のように、話者カテゴリに相対的な優先順位が関連付けられ、単一の音声キャプチャ信号/話者が、最も優先順位の高いグループに関連付けられた音声キャプチャ信号として選択され得る。一部の実施形態では、複数の話者ではなく1人の話者の話者カテゴリの表示が提示されてもよい。これに従って、このようなシナリオでは、優先順位が最も高い現在アクティブな話者の役割を示す表示がユーザに表示され得る。
【0137】
多くの実施形態では、音声通信装置103は、メタデータをリモートデバイス/参加者に送信するように構成されてもよい。メタデータは、少なくとも1つの話者カテゴリの表示を含み得る。例えば、上記のようにディスプレイ上に話者カテゴリのインジケータを表示する代わりに、現在アクティブな話者の話者カテゴリを示すデータがビットストリーム内に含まれてもよい。リモートデバイスは、メタデータを抽出し、話者カテゴリの情報(例えば、話者の役割)をリモート参加者に提示する機能を含み得る。
【0138】
一部の実施形態では、ユーザインターフェースは、代わりにまたは追加で、減衰または具体的にミュートされる音声キャプチャ信号のセグメントの表示を提示するように構成されてもよい。例えば、1つ以上の音声セグメントがミュートされ、出力音声信号に含まれていない時間中に低音量のトーンが生成されてもよい。他の実施形態では、セグメントが減衰されたときにディスプレイ上に表示が提供されてもよい。一部の実施形態では、単純なバイナリ表示が提供され得るが、他の実施形態では、より詳細な情報が提供され得る。例えば、ミュートされた音声セグメントの内容カテゴリの表示が部屋内の参加者に提示されてもよい。このようなアプローチは、有利なフィードバックを参加者に提供できる可能性がある。例えば、個人情報などの機密情報が含まれているためにセグメントがミュートされる場合、話者が現在そのような個人情報を開示していることを警告する表示がディスプレイ上に提示されてもよい。これにより、例えば、参加者による意図しない情報開示のリスクが低減される可能性がある。
【0139】
一部の実施形態では、所与のユーザのための出力音声信号の組み合わせは、音声キャプチャ信号に割り当てられた話者カテゴリに依存する可能性があり、具体的には、アダプタ215は、割り当てられたカテゴリに基づいて音声出力信号の1つ以上の組み合わせ重みを調整するように音声生成器205を制御するように構成されてもよい。
【0140】
ある音声出力信号の組み合わせ重みは、音声出力信号を出力音声信号に組み合わせる際の、他の音声出力信号の重みに対するその音声キャプチャ信号の重みである可能性がある。具体的には、所与の音声出力信号の組み合わせ重みは、他の音声キャプチャ信号と組み合わせる/混合する際の音声出力信号の相対ゲインに対応する可能性がある。
【0141】
例えば、一部の実施形態では、特定の話者カテゴリ、例えば裁判官、外科医、または現場のサービスエンジニアなどに対応する話者カテゴリが特に重要であるとみなされ、これに従い、他の音声キャプチャ信号と混合される際、そのような話者カテゴリに関連付けられた音声キャプチャ信号のゲインはより高いレベルに設定される可能性がある。これにより、特定のカテゴリの話者の声が聞き取りやすい音声出力信号が生成され得る。
【0142】
一部の実施形態では、上記のように、話者カテゴリは異なる優先順位に関連付けられてもよい。このような場合、音声キャプチャ信号のゲイン/組み合わせ重みは、音声キャプチャ信号に関連付けられた話者カテゴリの優先順位に応じて設定されてもよい。例えば、優先順位が高いほど、ゲイン/組み合わせ重みが高く設定されてもよい。
【0143】
したがって、一部の実施形態では、音声キャプチャ信号は、話者のカテゴリ/優先順位に応じて相対ゲイン/組み合わせ重みを設定することによって、音声出力信号内の信号を優先することができる。これは、例えば、複数の話者が同時に話し、その全員が音声出力信号に含まれる場合に有用である可能性がある。話者の分類に基づいて、音声キャプチャ信号は、出力音声信号において、より重要な話者(例えば、議長)に他の話者よりもわずかに高いゲインを与えることを決定し得る。
【0144】
一部の実施形態では、話者の分類は進行中の会話のコンテキストを考慮に入れることができる。
【0145】
例えば、対象が定められたビームによってキャプチャされた参加者の話者カテゴリ/役割を判定する方法論は、リモートパーティと部屋内の参加者との間で進行中の会話のコンテキストを考慮することである。
図6は、報告された問題に関して、リモートサービスエンジニア(RSE)が離れた場所からラボ技術者と会話しているシナリオを示している。この例では、会話に特定のコンテキストが存在する。会話中に、関与者の1人(RSEまたは技術者)から新しい文が受信されるたびに、その文のコンテキストが進行中の会話の文のコンテキストと照合され、新しい文が現在の会話の一部であるか否か、および正しい参加者からの文か否かが判断されてもよい。別の関与者からの対象が定められたビームによってキャプチャされた文がある場合(例えば、医師が患者/家族に機密情報を含む話をしている場合)、その文は進行中の会話のコンテキストと一致しない。このようにすることで、参加者の役割を判断し、その文を破棄することができる。
【0146】
このようなアプローチの主要ステップは以下を含み得る。
・進行中の会話の音声ビームのうちの1つから新しい文/テキストが検出されると、以前の会話の文/テキストおよび新しい文/テキストがコンテキスト抽出モジュールを通される。そのようなモジュールは以下の動作を含み得る。
- 文トークナイザ:まず前処理ステップとして、文/テキストがトークンのリストにトークン化される。
- ステミングおよびストップワードの削除:次のステップは、単語を基本形にステミングまたはレンマタイゼーションすることである。単語の異なる形式は同じコンテキストを有するため、自然言語処理ではその基本形が使用される。ストップワード(「is」、「and」、「or」など)の事前処理ステップ削除も実行されてもよい。
- 単語の埋め込み:単語の埋め込みは、使用のコンテキストに基づいて類似の単語が互いに近くにマッピングされるベクトル空間内の単語を表す。
- コンテキストの埋め込み:コンテキストの埋め込みは、ベクトル空間内の単語の時間的なインタラクションまたはコンテキストを表す。
このモジュールの出力は、両方のタイプの文/テキストのコンテキストを表す2つのコンテキストベクトルであってもよい。
・次のステップでは、例えば以下のような適切な類似度関数を使用して、これら2つのコンテキストベクトルの類似度を計算することで類似度スコアが出力され得る。
Scorecontext=Similarity(Context_Vectorprev,Context_Vectornew
・類似度スコアはその後閾値と比較され、対象が定められたビームの出力から得られた新しい文/テキストが会話の一部であるか、または部屋にはいるがこの会話には参加していない別の人からのものかが判定され得る。
【0147】
図7は、進行中の会話に関して、音声ビームで検出された新しい文/テキストのコンテキスト類似度を導出/計算するために使用できる全体的方法論の例を示す。
【0148】
明瞭さのために、上記の説明は、複数の異なる機能的回路、ユニット、およびプロセッサを参照して本発明の実施形態を説明している。しかしながら、本発明を損なうことなく、異なる機能的回路、ユニット、またはプロセッサ間で、機能が適切に分散され得ることが理解されよう。例えば、複数の別々のプロセッサまたはコントローラによって実行されるように説明された機能が、同じプロセッサまたはコントローラによって実行されてもよい。したがって、特定の機能的ユニットまたは回路への言及は、厳密な論理的または物理的な構造または組織を示すものではなく、説明される機能を提供するための適切な手段への言及であると考えられたい。
【0149】
本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせを含む任意の適切な形態で実施することができる。本発明は、1つ以上のデータプロセッサおよび/またはデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の実施形態の要素および構成要素は、任意の適切な方法で物理的、機能的、および論理的に実装され得る。実際には、機能は、単一のユニット、複数のユニット、または他の機能ユニットの一部として実装されてもよい。したがって、本発明は、単一のユニットとして実装されてもよく、または複数の異なるユニット、回路、およびプロセッサの間で物理的および機能的に分散されてもよい。
【0150】
いくつかの実施形態に関連して本発明を説明したが、本発明は明細書に記載される具体的形態に限定されない。本発明の範囲は添付の特許請求の範囲によってのみ限定される。さらに、ある特徴が特定の実施形態に関連して記載されているように見えたとしても、当業者は、上記実施形態の様々な特徴が本発明に従って組み合わせられ得ることを認識するであろう。請求項において、備える、含む等の用語は他の要素またはステップの存在を排除するものではない。
【0151】
さらに、個別に列挙されていたとしても、複数の手段、要素、回路、または方法ステップは、例えば、単一の回路、ユニット、またはプロセッサによって実施されてもよい。さらに、個々の特徴が異なる請求項に含まれていたとしても、これらは好適に組み合わされ得、異なる請求項に含まれていることは、特徴の組み合わせが実現不可能であるおよび/または有利でないことを意味するものではない。また、1つのクレームカテゴリー内にある特徴が含まれているからといって、その特徴がこのカテゴリに限定されるとは限らず、特徴は適宜、他のクレームカテゴリーに等しく適用可能である。さらに、請求項における特徴の順序は、特徴が作用すべき特定の順序を指すものではなく、特に、方法クレームにおける個々のステップの順序はステップをその順序で実行しなければならないことを意味しない。ステップは任意の適切な順序で実行され得る。また、単数形の表現は複数形を排除するものではない。したがって、「第1の」、「第2の」などの表現は複数を排除するものではない。特許請求の範囲内の参照符号は明瞭さのための例に過ぎず、請求項の範囲を如何ようにも限定するものではない。
【0152】
以下の実施形態は、一般的に、音声装置、音声装置の動作方法、および方法を実装するコンピュータプログラムの例を示す。
【0153】
実施形態
音声装置であって、音声装置は、
環境内の音声をキャプチャする音声キャプチャ装置(201)であって、音声キャプチャ装置(201)は、複数の音声ビームを形成し、複数の音声ビームの各音声ビームについて、音声キャプチャ信号を生成する、音声キャプチャ装置と、
複数の音声ビームの各音声ビームを異なる音源に向けるビームステアリング装置(203)と、
少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定するアナライザ(211)と、
発話特性に応じて、第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定する分類器(213)と、
第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第1のユーザのための第1の音声出力信号を生成し、また、第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって、第2のユーザのための異なる第2の音声出力信号を生成する音声生成器(205)と、
第1の話者カテゴリに応じて第1の音声出力信号を調整するアダプタ(215)と、を備え、
アダプタ(215)は、第1の話者カテゴリおよび第1のユーザの特性に応じて、第1の音声出力信号を個別に調整し、第1の話者カテゴリおよび第2のユーザの特性に応じて、第2の音声出力信号を個別に調整する、音声装置。
【0154】
1.音声装置であって、音声装置は、
環境内の音声をキャプチャする音声キャプチャ装置(201)であって、音声キャプチャ装置(201)は、複数の音声ビームを形成し、複数の音声ビームの各音声ビームについて、音声キャプチャ信号を生成する、音声キャプチャ装置と、
複数の音声ビームの各音声ビームを異なる音源に向けるビームステアリング装置(203)と、
少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定するアナライザ(211)と、
発話特性に応じて、第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定する分類器(213)と、
第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって音声出力信号を生成する音声生成器(205)と、
第1の話者カテゴリに応じて音声出力信号を調整するアダプタ(215)と、を備えた音声装置。
【0155】
2.アナライザ(211)は、第1の音声キャプチャ信号内の単語を検出し、検出された単語に応じて、発話特性のうち少なくとも第1の発話特性を決定する、請求項1に記載の音声装置。
【0156】
3.アナライザ(211)は、検出された単語の自然言語処理(NLP)に応じて、発話特性のうちの第1の発話特性を決定する、請求項2に記載の音声装置。
【0157】
4.音声生成器(205)は、第1のユーザのために第1の音声出力信号を生成し、第2のユーザのために異なる第2の音声出力信号を生成し、アダプタ(215)は、第1の話者カテゴリおよび第1のユーザの特性に応じて第1の音声出力信号を個別に調整し、第2の話者カテゴリおよび第2のユーザの特性に応じて第2の音声出力信号を調整する、請求項1から3のいずれか一項に記載の音声装置。
【0158】
5.アダプタ(215)は、第1の話者カテゴリに応じて、複数の音声キャプチャ信号のうちのどの音声キャプチャ信号が、第1の音声出力信号を生成するための組み合わせに含まれるかを選択する、請求項1から4のいずれか一項に記載の音声装置。
【0159】
6.音声装置は、第1の音声キャプチャ信号のセグメントを解析して、複数の内容カテゴリからセグメントの内容カテゴリを決定する内容アナライザ(217)をさらに備え、アダプタ(215)は、内容カテゴリに応じて第1の音声出力信号を調整する、請求項1から5のいずれか一項に記載の音声装置。
【0160】
7.アダプタ(215)は、少なくとも1つの内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントを減衰させ、少なくとも1つの他の内容カテゴリと第1の話者カテゴリとの組み合わせの場合、第1の音声キャプチャ信号のセグメントを減衰させない、請求項6に記載の音声装置。
【0161】
8.減衰されるセグメントの表示を提示するためのユーザインターフェース(219)を備える、請求項7に記載の音声装置。
【0162】
9.分類器(213)が、
音源の音声キャプチャ信号の周波数分布に基づいて、音源の署名を生成する署名生成器(403)と、
音源に対して決定された話者カテゴリにリンクされた音源の署名を保存する記憶部(405)と、を含み、
署名生成器(403)は、第1の音源が検出されたことに応じて、第1の音源の第1の署名を生成し、
分類器(213)は、第1の署名と、記憶部(405)内に保存されている署名とを照合し、保存されている署名にリンクされた話者カテゴリに応じて第1の音源の第1の話者カテゴリを決定する、請求項1から8のいずれか一項に記載の音声装置。
【0163】
10.音声キャプチャ装置(201)は新しい音源を検出し、ビームステアリング装置(203)は、新しい音源の検出に応じて、音声ビームを、以前の音源に向けられた状態から、新しい音源に向けられた状態に切り替え、以前の音源の話者カテゴリに応じて以前の音源を選択する、請求項1から9のいずれか一項に記載の音声装置。
【0164】
11.音声装置が、さらに、
現在アクティブな発話信号を含むアクティブな音声キャプチャ信号を検出する検出器(221)と、
アクティブな音声キャプチャ信号の音源に割り当てられた話者カテゴリの表示を提示するユーザーインターフェース(219)と、を備える、請求項1から10のいずれか一項に記載の音声装置。
【0165】
12.音声生成器(205)は、第1の話者カテゴリに応じて、音声キャプチャ信号の少なくとも1つの組み合わせ重みを調整する、請求項1から11のいずれか一項に記載の音声装置。
【0166】
13.音声キャプチャ装置(201)は可変音声ビームを生成し、ビームステアリング装置(203)は、
可変音声ビームを変化させて潜在的な新しい音源を検出し、
潜在的な新しい音源と、複数のビームのうちのいずれかのビームが向けられている音源とが一致するか否かを判定し、一致するか否かの判定は、可変音声ビームの特性、および複数の音声ビームのうちの音声ビームの特性と、可変音声ビームの音声キャプチャ信号の特性、および複数の音声ビームの音声キャプチャ信号の特性とのうちの少なくとも1つの比較に応じて行われ、
一致が検出されない場合、音声ビームを以前の音源から潜在的な新しい音源に向ける、請求項1から12のいずれか一項に記載の音声装置。
【0167】
14.音声装置の動作方法であって、方法は、
複数の音声ビームを形成し、複数の音声ビームの各音声ビームのために音声キャプチャ信号を生成することによって、環境内の音声をキャプチャすることと、
複数の音声ビームの各音声ビームを異なる音源に向けることと、
少なくとも第1の音声キャプチャ信号を解析して、第1の音声キャプチャ信号の音声の発話特性を決定することと、
発話特性に応じて、第1の音声キャプチャ信号の第1の音源について、複数の話者カテゴリの中から第1の話者カテゴリを決定することと、
第1の音声キャプチャ信号を含む音声キャプチャ信号を組み合わせることによって第1の音声出力信号を生成することと、
第1の話者カテゴリに応じて第1の音声出力信号を調整することと、を含む、方法。
【0168】
15.プログラムがコンピュータ上で実行されると、請求項14に記載の全てのステップを実行するコンピュータプログラムコード手段を含むコンピュータプログラム製品。
【国際調査報告】