IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特開2024-26295音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション
<>
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図1A
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図1B
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図1C
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図1D
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図1E
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図2A
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図2B
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図3
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図4
  • 特開-音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024026295
(43)【公開日】2024-02-28
(54)【発明の名称】音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション
(51)【国際特許分類】
   H04N 7/15 20060101AFI20240220BHJP
   G10L 15/28 20130101ALI20240220BHJP
   H04M 3/56 20060101ALI20240220BHJP
【FI】
H04N7/15
G10L15/28 500
H04M3/56 C
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023206380
(22)【出願日】2023-12-06
(62)【分割の表示】P 2022528271の分割
【原出願日】2019-11-18
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ショアン、オリヴェール
(72)【発明者】
【氏名】ブラーガ、オタヴィオ
(72)【発明者】
【氏名】カスティーヨ、バシーリオ ガルシア
(72)【発明者】
【氏名】リャオ、ハンク
(72)【発明者】
【氏名】ローズ、リチャード
(72)【発明者】
【氏名】マキノ、タカキ
(57)【要約】      (修正有)
【課題】プライバシーに配慮したトランスクリプションの方法及びシステムを提供する。
【解決手段】方法は、会話環境に関する音声データ及び画像データを含む音声映像信号と、会話環境の参加者からのプライバシー要求と、を受信する。プライバシー要求が参加者のプライバシー条件を示す。方法はまた、音声データを複数のセグメントに分割し、各セグメントに対して、画像データに基づいて、音声データの対応するセグメントの話者の識別情報を決定し、対応するセグメントの話者の識別情報がプライバシー条件に関連する参加者を含むかどうかを判定し、対応するセグメントの話者の識別情報が参加者を含む場合、対応するセグメントにプライバシー条件を適用し、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理する。
【選択図】図1A
【特許請求の範囲】
【請求項1】
データ処理ハードウェアによって実行されるコンピュータ実行型の方法であって、前記方法は、前記データ処理ハードウェアに、
音声データを含む音声信号を受信するステップと、前記音声データは、会話環境における複数の音声発話を含んでおり、
プライバシー条件を示すプライバシー要求を受信するステップと、前記プライバシー条件は、トランスクリプトから排除されるコンテンツの種別を示すコンテンツ固有の条件を含んでおり、
前記音声データを処理して、前記複数の音声発話のうちの前記コンテンツの種別に対応する1つまたは複数の音声発話を識別するステップと、
前記音声データに基づいて、前記トランスクリプトを生成するステップと、を含む動作を実行させ、前記トランスクリプトは、前記複数の音声発話のうちの前記コンテンツの種別に対応する前記1つまたは複数の音声発話を排除している、方法。
【請求項2】
前記データ処理ハードウェアは、前記音声データに関連付けられたユーザに対してローカルであるデバイス上に存在する、請求項1に記載の方法。
【請求項3】
前記音声データを処理することは、前記デバイス上でローカルに実行される、請求項2に記載の方法。
【請求項4】
前記コンテンツの種別は、持続時間に対応するコンテンツを含む、請求項1に記載の方法。
【請求項5】
前記コンテンツの種別は、特定の人物に関連付けられたコンテンツを含む、請求項1に記載の方法。
【請求項6】
前記動作は、前記音声データの前記複数の音声発話の各発話に対して、個別の音声発話を第1のユーザまたは第2のユーザのうちの1人に関連付けるステップをさらに含む、請求項1に記載の方法。
【請求項7】
前記プライバシー要求は、前記複数の音声発話のうちの前記第1のユーザに関連付けられた各個別の音声発話にのみ適用される、請求項6に記載の方法。
【請求項8】
前記プライバシー要求は、
前記複数の音声発話のうちの前記第1のユーザに関連付けられた各個別の音声発話と、
前記複数の音声発話のうちの前記第2のユーザに関連付けられた各個別の音声発話と、に適用される、請求項6に記載の方法。
【請求項9】
前記音声信号は、前記会話環境における複数のユーザの顔を表す画像データをさらに含む音声ビデオ信号の一部として受信される、請求項1に記載の方法。
【請求項10】
前記画像データは、前記データ処理ハードウェアによって処理される高解像度ビデオを含む、請求項9に記載の方法。
【請求項11】
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと、を備え、前記メモリハードウェアは、命令を格納し、前記命令は、前記データ処理ハードウェア上での実行時に、前記データ処理ハードウェアに、
音声データを含む音声信号を受信するステップと、前記音声データは、会話環境における複数の音声発話を含んでおり、
プライバシー条件を示すプライバシー要求を受信するステップと、前記プライバシー条件は、トランスクリプトから排除されるコンテンツの種別を示すコンテンツ固有の条件を含んでおり、
前記音声データを処理して、前記複数の音声発話のうちの前記コンテンツの種別に対応する1つまたは複数の音声発話を識別するステップと、
前記音声データに基づいて、前記トランスクリプトを生成するステップと、を含む動作を実行させ、前記トランスクリプトは、前記複数の音声発話のうちの前記コンテンツの種別に対応する前記1つまたは複数の音声発話を排除している、システム。
【請求項12】
前記データ処理ハードウェアは、前記音声データに関連付けられたユーザに対してローカルであるデバイス上に存在する、請求項11に記載のシステム。
【請求項13】
前記音声データを処理することは、前記デバイス上でローカルに実行される、請求項12に記載のシステム。
【請求項14】
前記コンテンツの種別は、持続時間に対応するコンテンツを含む、請求項11に記載のシステム。
【請求項15】
前記コンテンツの種別は、特定の人物に関連付けられたコンテンツを含む、請求項11に記載のシステム。
【請求項16】
前記動作は、前記音声データの前記複数の音声発話の各発話に対して、個別の音声発話を第1のユーザまたは第2のユーザのうちの1人に関連付けるステップをさらに含む、請求項11に記載のシステム。
【請求項17】
前記プライバシー要求は、前記複数の音声発話のうちの前記第1のユーザに関連付けられた各個別の音声発話にのみ適用される、請求項16に記載のシステム。
【請求項18】
前記プライバシー要求は、
前記複数の音声発話のうちの前記第1のユーザに関連付けられた各個別の音声発話と、
前記複数の音声発話のうちの前記第2のユーザに関連付けられた各個別の音声発話と、に適用される、請求項16に記載のシステム。
【請求項19】
前記音声信号は、前記会話環境における複数のユーザの顔を表す画像データをさらに含む音声ビデオ信号の一部として受信される、請求項11に記載のシステム。
【請求項20】
前記画像データは、前記データ処理ハードウェアによって処理される高解像度ビデオを含む、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声映像ストリーム (audio-visual stream)からのプライバシーに配慮した会議室でのトランスクリプション(transcription)に関する。
【背景技術】
【0002】
話者ダイアライゼーション(Speaker diarization)は、入力音声ストリームを話者の識別情報(identity)に従って同種のセグメントに分割するプロセスである。複数の話者がいる環境において、話者ダイアライゼーションは「誰がいつ話しているか」という質問に答え、かついくつか例を出すと、マルチメディア情報の検索、話者交替分析、音声処理など、様々な用途がある。特に、話者ダイアライゼーションシステムは、音響音声認識の精度を大幅に向上させる可能性のある話者境界を生成することができる。
【発明の概要】
【0003】
本開示の一態様は、コンテンツストリームからプライバシーに配慮した会議室でのトランスクリプト(transcript)を生成するための方法を提供する。方法は、データ処理ハードウェアにおいて、音声データおよび画像データを含む音声映像信号を受信することを含む。音声データは、会話環境における複数の参加者からの音声発話に対応し、画像データは、会話環境における複数の参加者の顔を表す。方法は、データ処理ハードウェアにおいて、複数の参加者のうちの1人の参加者からプライバシー要求を受信することも含む。プライバシー要求は、会話環境における参加者に関連するプライバシー条件を示す。方法は、データ処理ハードウェアが、音声データを複数のセグメントに分割することをさらに含む。音声データの各セグメントに対して、方法は、データ処理ハードウェアが、複数の参加者の中から、画像データに基づいて音声データの対応するセグメントの話者の識別情報を決定することを含む。音声データの各セグメントに対して、方法は、データ処理ハードウェアが、対応するセグメントの話者の識別情報が、受信したプライバシー要求によって示されるプライバシー条件に関連する参加者を含むかどうかを判定することも含む。対応するセグメントの話者の識別情報が参加者を含む場合、方法は、対応するセグメントにプライバシー条件を適用することを含む。方法は、データ処理ハードウェアが、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することをさらに含む。
【0004】
本開示の実施形態は、以下の任意の機能のうちの1つまたは複数を含み得る。いくつかの実施形態では、対応するセグメントにプライバシー条件を適用することは、トランスクリプトを決定した後に、音声データの対応するセグメントを削除することを含む。追加的または代替的に、対応するセグメントにプライバシー条件を適用することは、画像データの対応するセグメントを増強して、音声データの対応するセグメントの話者の識別情報を視覚的に隠すことを含み得る。
【0005】
いくつかの例では、プライバシー条件を適用する音声データの複数のセグメントのうちの1つに対応するトランスクリプトの各部分に対して、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、話者の識別情報を含まないようにトランスクリプトの対応する部分を修正することを含む。任意選択的に、プライバシー条件を適用する音声データの各セグメントに対して、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、音声データの対応するセグメントを文字起こしすることを省略することを含み得る。プライバシー条件がコンテンツ固有の条件を含み、コンテンツ固有の条件は、トランスクリプトから排除されるコンテンツの種別を示す。
【0006】
いくつかの構成では、複数の参加者の中から、音声データの対応するセグメントの話者の識別情報を決定することは、画像データに基づいて話者の複数の候補識別情報を決定することを含む。ここで、複数の候補識別情報の各候補識別情報に対して、画像データに基づく対応する候補識別情報の顔が音声データの対応するセグメントの話をしている顔を含んでいる可能性を示す信頼度スコアを生成する。この構成では、方法は、最高の信頼度スコアに関連する、複数の候補識別情報のうちの候補識別情報として、音声データの対応するセグメントの話者の識別情報を選択することを含む。
【0007】
いくつかの実施形態では、データ処理ハードウェアは、複数の参加者のうちの少なくとも1人の参加者に対して近くにあるデバイス上に存在する。画像データは、データ処理ハードウェアによって処理される高解像度ビデオを含み得る。音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、トランスクリプトを決定するために、画像データを処理することを含み得る。
【0008】
本開示の別の態様は、プライバシーに配慮したトランスクリプションのためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェアによる実行時に、データ処理ハードウェアに動作を実行させる命令を格納する。動作は、音声データおよび画像データを含む音声映像信号を受信することを含む。音声データは、会話環境における複数の参加者からの音声発話に対応し、画像データは、会話環境における複数の参加者の顔を表す。動作は、複数の参加者のうちの一人の参加者からプライバシー要求を受信することを含み、プライバシー要求は、会話環境における参加者に関連するプライバシー条件を示す。方法は、音声データを複数のセグメントに分割することをさらに含む。音声データの各セグメントに対して、動作は、複数の参加者の中から、画像データに基づいて音声データの対応するセグメントの話者の識別情報を決定することを含む。音声データの各セグメントに対して、動作は、対応するセグメントの話者の識別情報が、受信したプライバシー要求によって示されるプライバシー条件に関連する参加者を含むかどうかを判定することも含む。対応するセグメントの話者の識別情報が参加者を含む場合、動作は、対応するセグメントにプライバシー条件を適用することを含む。動作は、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することをさらに含む。
【0009】
この態様は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの例では、対応するセグメントにプライバシー条件を適用することは、トランスクリプトを決定した後に、音声データの対応するセグメントを削除することを含む。任意選択で、対応するセグメントにプライバシー条件を適用することは、画像データの対応するセグメントを増強して、音声データの対応するセグメントの話者の識別情報を視覚的に隠すことを含み得る。
【0010】
いくつかの構成では、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、プライバシー条件を適用する音声データの複数のセグメントのうちの1つに対応するトランスクリプトの各部分に対して、話者の識別情報を含まないようにトランスクリプトの対応する部分を修正することを含む。追加的または代替的に、音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、プライバシー条件を適用する音声データの各セグメントに対して、音声データの対応するセグメントを文字起こしすることを省略することを含み得る。プライバシー条件がコンテンツ固有の条件を含み、コンテンツ固有の条件は、トランスクリプトから排除されるコンテンツの種別を示す。
【0011】
いくつかの実施形態では、複数の参加者の中から、音声データの対応するセグメントの話者の識別情報を決定する動作は、画像データに基づいて話者の複数の候補識別情報を決定することを含む。この実施形態は、複数の候補識別情報の各候補識別情報に対して、画像データに基づく対応する候補識別情報の顔が音声データの対応するセグメントの話をしている顔を含んでいる可能性を示す信頼度スコアを生成することを含む。この実施形態は、最高の信頼度スコアに関連する、複数の候補識別情報のうちの候補識別情報として、音声データの対応するセグメントの話者の識別情報を選択することも含む。
【0012】
いくつかの例では、データ処理ハードウェアは、複数の参加者のうちの少なくとも1人の参加者に対して近くにあるデバイス上に存在する。画像データは、データ処理ハードウェアによって処理される高解像度ビデオを含み得る。音声データに対するトランスクリプトを決定するために、音声データの複数のセグメントを処理することは、トランスクリプトを決定するために、画像データを処理することを含み得る。
【0013】
本開示の1つまたは複数の実施形態の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0014】
図1A】トランスクリプタを備えた例示的な集会環境の概略図である。
図1B】プライバシーに配慮したトランスクリプタを備えた図1Aの例示的な集会環境の概略図である。
図1C】プライバシーに配慮したトランスクリプタを備えた図1Aの例示的な集会環境の概略図である。
図1D】プライバシーに配慮したトランスクリプタを備えた図1Aの例示的な集会環境の概略図である。
図1E】プライバシーに配慮したトランスクリプタを備えた図1Aの例示的な集会環境の概略図である。
図2A】例示的なトランスクリプタの概略図である。
図2B】例示的なトランスクリプタの概略図である。
図3図1Aの集会環境内内でコンテンツを文字起こしする方法のための動作の例示的な構成のフローチャートである。
図4】本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。
図5】トランスクリプタからアクセス可能なメモリハードウェアに格納された例示的なプロファイルの概略図である。
【発明を実施するための形態】
【0015】
様々な図面の同様の参照記号は、同様の構成要素を示す。
ビデオ会議システムによって使用され、かつ生成されるデータのプライバシーは、そのようなシステムの重要な側面である。会議の参加者は、会議中に取得した音声およびビデオデータに関するプライバシーについて、個人的な見解を持っている場合がある。従って、そのようなプライバシー要件を信頼性の高い正確な方法で満たしながら、ビデオ会議のトランスクリプトを正確に生成することができるビデオ会議システムを提供する方法についての技術的な問題がある。本開示の実施形態は、会議の参加者が自身のプライバシー設定(例えば、ビデオ会議システムの様々な機能のオプトインまたはオプトアウト)を設定することを可能にし、ビデオ会議システムは、次に、ビデオ会議システムにより、参加者の要望を正確かつ効果的に具体化し、トランスクリプトを生成する際に、会議中にキャプチャされた音声のみならず、会議中にキャプチャされたビデオにも基づいて参加者からの会話による投稿を識別することによって、技術的解決策を提供し、これは、ビデオ会議への投稿者の識別のより高い精度を保証し、それによって、トランスクリプトの精度を向上させると同時に、参加者の特定指示のプライバシー要件の正確かつ信頼性の高い具体化が可能となる。言い換えれば、より正確で信頼性が高く、柔軟なビデオ会議システムが提供される。
【0016】
さらに、いくつかの実施形態では、ビデオ会議のトランスクリプトを生成するプロセスは、例えば、それらの参加者と同じ部屋内にあるデバイスによって、ビデオ会議の1人または複数の参加者に対して局所的に実行される。言い換えれば、そのような実施形態では、トランスクリプトを生成するプロセスは、1つまたは複数のリモートサーバ/クラウドサーバなどを介してリモートで実行されない。これは、特定のプライバシーの要望を満たすと同時に、ビデオ会議中に話者を識別する際に、局所的にキャプチャされた完全/オリジナル解像度および完全/オリジナル品質のビデオデータを使用することを可能にするのに役立つ(話者の識別の精度を損なう可能性がある低解像度および/または低品質のビデオで動作するリモートサーバとは対照的に)。
【0017】
集会環境(一般的に環境とも呼ばれる)では、人々が集まり、考え、アイデア、スケジュール、またはその他の関心事についてコミュニケーションをとる。集会環境は、参加者に対する共有スペースとして機能する。この共有スペースは、会議室や教室などの物理的なスペース、仮想スペース(例えば、仮想会議室)、またはそれらの任意の組み合わせである場合がある。環境は、集中型のロケーション(例えば、ローカルでホストされる)であるか、または分散型のロケーション(例えば、仮想的にホストされる)であり得る。例えば、環境は、会議室や教室など、参加者が集まる一室である。いくつかの実施形態では、環境は、参加者の集会を形成するために相互にリンクされた複数の共有スペースである。例えば、会議には、ホストロケーション(例えば、会議のコーディネーターまたはプレゼンターが位置するロケーション)と、会議に参加する1つまたは複数のリモートロケーション(例えば、リアルタイム通信アプリケーションを使用するロケーション)とがある。言い換えれば、企業は、シカゴにあるオフィスから会議を主催するが、(例えば、サンフランシスコまたはニューヨークにある)企業の他のオフィスはリモートで会議に参加する。例えば、複数のオフィスにまたがって大規模な会議を開催する多くの企業があり、各オフィスには会議に参加する会議スペースがある。これは、チームのメンバーが会社全体に分散したり(即ち、複数のロケーションにいたり)、リモートで作業したりすることが一般的になってきているため、特に当てはまる。さらに、アプリケーションがリアルタイム通信に対してより堅牢になるにつれて、リモートオフィス、リモート従業員、リモートパートナー(ビジネスパートナーなど)、リモート顧客などに対して環境がホストされ得る。そのため、幅広い集会器材(assembly logistics)に対応できるように環境が整備されてきた。
【0018】
一般的に、コミュニケーションのスペースとして、環境は、複数の参加者をホストする。ここで、各参加者は、環境内に存在している間に、音声コンテンツ(例えば、話すことによる可聴発話)および/または映像コンテンツ(例えば、参加者の動作)を提供することができる。環境内に複数の参加者がいる場合、一部または全ての参加者の参加を追跡および/または記録することには利点がある。これは、環境が幅広い集会器材に対応している場合に、特に当てはまる。例えば、ニューヨークオフィスとサンフランシスコオフィスの両方がリモートで参加する会議をシカゴオフィスが主催する場合、シカゴオフィスの誰かがリモートロケーションのうちの1つにいる話者を特定するのは困難な場合がある。例を挙げると、シカゴオフィスには、シカゴオフィスから遠隔地にある各オフィスの会議室をキャプチャしたビデオフィードが含まれている場合がある。ビデオフィードを使用しても、シカゴオフィスの参加者は、ニューヨークオフィスの全ての参加者を区別できない場合がある。例えば、ニューヨークオフィスの話者は、ビデオフィードに関連付けられたカメラから離れた場所にいるため、シカゴオフィスの参加者は、ニューヨークオフィスにいる話者が誰であるのかを識別することが困難である。これは、シカゴを拠点とする参加者が、会議内での他の参加者をよく知らない場合(例えば、話者を声で識別できない場合)にも、困難であり得る。話者を特定できない場合、会議中に話者の識別情報が重要な要素になる場合があるため、問題が発生する可能性がある。言い換えれば、収穫/成果物を理解するため、または一般的に誰がどのコンテンツを共有したかを理解するために、話者(またはコンテンツの発信者)を特定することが重要な場合がある。例えば、ニューヨークオフィスのサリーがシカゴオフィスのジョニーからアクションアイテムの成果物を引き受けたとしても、ジョニーがサリーがアクションアイテムを引き受けたことを識別できなかった場合、ジョニーが後でアクションアイテムをフォローアップするのに困る可能性がある。別のシナリオでは、ジョニーはサリーがアクションアイテムを引き受けたことを識別できなかったため、ジョニーはトレーシー(例えば、同じくニューヨークオフィスにいる)がアクションアイテムを引き受けたことを誤って識別する場合がある。参加者同士で単に会話するという基本的なレベルでも同じことが言える場合がある。サリーが特定のトピックについて話したが、ジョニーがそれがトレーシーが話したと思った場合、ジョニーは後の会議でそのトピックについてトレーシーと会話するときに、混乱を引き起こす可能性がある。
【0019】
別の参加者がよく知らない、および/または完全に理解できない名前、頭字語、および/または専門用語について話者が話をした場合にも、別の問題が発生する可能性がある。言い換えれば、ジョニーは、出荷時に使用した運送業者で発生した問題について議論するかもしれない。ピートは、ジョニーの問題に対して、「ああ、それについては設備のテディと話した方がいい」と言って割り込んでくるかもしれない。ジョニーがテディおよび/または設備チームをよく知らない場合、ジョニーはテディの代わりにフレディと話すようにメモをとるかもしれない。これは、特定の業界で使用されている頭字語またはその他の専門用語でも発生し得る。例えば、シカゴオフィスがシアトルの会社と会議を行い、シカゴオフィスが会議を主催し、シアトルの会社がリモートで会議に参加する場合、シカゴオフィスの参加者は、シアトルの会社がよく知らない頭字語または用語を使用するかもしれない。シカゴオフィスによって提示された内容の記録またはトランスクリプションがなければ、シアトルの会社は、残念ながら、会議の理解が少なくなる可能性がある(例えば、会議の質が低下する可能性がある)。付加的または代替的に、場所間の接続または会議ホスティングプラットフォームとの接続が不十分である場合、参加者が会議中に内容を理解しようとしているときに、参加者の問題が複雑になる可能性がある。
【0020】
これらの問題を解決するために、環境内で発生するコンテンツのトランスクリプトを生成する環境内にトランスクリプションデバイスが(例えば、リアルタイムで)存在する。トランスクリプトを生成する際に、デバイスは話者(即ち、音声コンテンツを生成する参加者)を識別したり、かつ/またはコンテンツを環境内に存在する参加者に関連付けたりすることができる。環境内に提示されたコンテンツのトランスクリプトを使用して、トランスクリプションデバイスは、収穫および/または成果物を記憶し、参加者が参照のためにアクセス可能な、どのようなコンテンツを誰が作成したかを記録することができる。例えば、参加者は、会議中(例えば、リアルタイムまたは実質的にリアルタイムで)または会議後のある時点で、トランスクリプトを参照することができる。言い換えれば、ジョニーは、トランスクリプションデバイスによって生成されたトランスクリプトの表示を参照して設備で話す必要がある人物はテディ(フレディではない)であり、そのアクションアイテムについてサリー(トレーシーではない)にフォローアップする必要があることを認識することができる。
【0021】
残念ながら、トランスクリプトは、環境内で遭遇するいくつかの問題を解決する可能性があるが、プライバシーに関する問題を提示する。ここで、プライバシーとは、トランスクリプションデバイスによって生成されたトランスクリプトが観察されない状態を意味する。プライバシーには様々な種類があるが、一部の例には、コンテンツプライバシーまたは識別情報プライバシーが含まれる。ここで、コンテンツプライバシーは、特定の秘密コンテンツ(例えば、機密コンテンツ)が書面または人間が読めるような形式で記憶されないことが望まれるようなコンテンツベースのものである。例えば、会議の一部に、会議に出席していない別の従業員に関する音声コンテンツが含まれている場合がある(例えば、管理者が、発生した人的資源課題について話し合う)。この例では、会議の参加者は、他の従業員に関する会議のこの部分が文字起こしされたり、それ以外に記憶されたりしないことを望むであろう。これには、他の従業員に関する内容を含む音声コンテンツを記憶しないことも含まれ得る。ここで、従来のトランスクリプションデバイスはコンテンツを無差別に文字起こしするため、会議では、少なくとも会議のその部分の間は、従来のトランスクリプションデバイスを利用することができない。
【0022】
識別情報プライバシーとは、コンテンツの発信者の匿名性を維持しようとするプライバシーを指す。例えば、トランスクリプトには、文字起こしされたコンテンツの発信者を識別するラベルがトランスクリプト内に含まれていることが多い。例えば、文字起こしされたコンテンツの話者にラベルを付けることは、「誰が何を話したか」と「誰がいつ話したか」の両方に答えるための話者ダイアライゼーションと呼ばれ得る。コンテンツの発信者の識別情報が秘密である場合、またはコンテンツを生成する発信者(例えば、参加者)が何らかの理由(例えば、個人的な理由)で自身の識別情報をマスクすることを望む場合、発信者は、文字起こしされたコンテンツにラベルが関連付けられることを望まない。ここでは、コンテンツプライバシーとは異なり、発信者はトランスクリプトにおいてコンテンツが公開されることは気にしないが、コンテンツを発信者に関連付けるための識別子(例えば、ラベル)を望まないことに留意されたい。従来のトランスクリプションデバイスには、これらのプライバシーの懸念に対応する機能がないため、参加者は、前述の利点を諦めてでも、トランスクリプションデバイスを使用しないことを選択する場合がある。これらの利点を維持し、かつ/または参加者のプライバシーを保護するために、環境は、トランスクリプタと呼ばれるプライバシーに配慮したトランスクリプションデバイスを含み得る。追加の例では、カメラが匿名を希望する話者のビデオをキャプチャしているとき、話者は、記録された画像(例えば、顔)を記憶しないことを選択することができる。これには、話者の顔のビデオフレーム/画像フレームを歪ませたり、話者の識別情報を隠すグラフィックをオーバーレイしたりして、会議に参加している他の個人が話者を視覚的に識別できないようにすることが含まれ得る。追加的または代替的に、(例えば、音声をボコーダーに通すことによって)話者の声の音声を歪ませて、話者を匿名化する方法で話者の声をマスクし得る。
【0023】
いくつかの実施形態では、トランスクリプション中にプライバシーをオンデバイス(on-device)で処理することによって、トランスクリプトが参加者に対して共有スペースを提供する集会環境(例えば、会議室または教室)の範囲を離れることがないように、プライバシーの懸念がさらに強化される。言い換えれば、トランスクリプタを使用してオンデバイスでトランスクリプトを生成することにより、匿名を希望する話者を識別する話者ラベルをオンデバイスで除去して、リモートシステム(例えば、クラウド環境)でトランスクリプトの処理が行われる場合に、これらの話者の識別情報が公開/漏洩されるという懸念を軽減することができる。別の言い方をすれば、参加者のプライバシーを危険にさらすような、共有または保存される可能性のある、トランスクリプタによって生成された未編集のトランスクリプトは存在しない。
【0024】
音声ビデオトランスクリプション(例えば、音声ビデオ自動音声認識(AVASR:audio-video automated speech recognition))をオンデバイスで実行することの別の技術的影響は、音声データおよび画像データ(ビデオデータとも呼ばれる)をリモートクラウドサーバに送信する必要なしに、ローカルにオンデバイスで保持され得るため、帯域幅要件が減少することである。例えば、ビデオデータをクラウドに送信する場合、送信のために最初に圧縮する必要があり得る。従って、ユーザデバイス自体でビデオマッチングを実行することの別の技術的効果は、非圧縮(最も高い品質)のビデオデータを使用してビデオデータのマッチングを実行することができることである。非圧縮ビデオデータを使用することで、音声データと話者の顔との間の一致を認識することが容易になり、特定されることを望まない話者によって話された音声データの文字起こし部分に割り当てられる話者ラベルを匿名化することができる。同様に、特定されることを望まない個人の顔をキャプチャしたビデオデータは、ビデオ録画が共有されても個人を視覚的に特定できないように、これらの個人をマスクするために、増強され/歪められ/ぼかしが施され得る。同様に、これらの個人によって話された発話を表す音声データは、特定可能となることを望まないこれらの個人の話す声を匿名にするために、歪められ得る。図1A図1Eを参照すると、環境100は、複数の参加者10、10a~jを含む。ここで、環境100は、ホスト会議室であり、ホスト会議室では6人の参加者10a-fが会議(例えば、ビデオ会議)に参加している。環境100は、リモートシステム130からネットワーク120を介してコンテンツフィード112(マルチメディアフィード、コンテンツストリーム、またはフィードとも呼ばれる)を受信するディスプレイデバイス110を含む。コンテンツフィード112は、音声フィード218(即ち、音声コンテンツ、音声信号、または音声ストリームなどの音声データ218)、映像フィード217(即ち、ビデオコンテンツ、ビデオ信号、またはビデオストリームなどの画像データ217)、または両方の組み合わせ(例えば、音声映像フィード、音声映像信号、または音声映像ストリームとも呼ばれる)であり得る。ディスプレイデバイス110は、ビデオコンテンツ217を表示可能なディスプレイ111と、音声コンテンツ218を音声出力するためのスピーカとを含むか、またはそれらと通信する。ディスプレイデバイス110のいくつかの例は、コンピュータ、ラップトップ、モバイルコンピューティングデバイス、テレビ、モニタ、スマートデバイス(例えば、スマートスピーカ、スマートディスプレイ、スマート家電)、ウェアラブルデバイスなどを含む。いくつかの例では、ディスプレイデバイス110は、会議に参加する他の会議室の音声映像フィード112を含む。例えば、図1A図1Eは、2つのフィード112、112a-bを示している。ここで、各フィード112は別個のリモート会議室に対応している。ここで、第1のフィード112aは、3人の参加者10、10g-iを含み、第2のフィード112bは、1人の参加者10、10j(例えば、ホームオフィスからリモートで作業する従業員)を含む。前の例を続けると、第1のフィード112aはニューヨークオフィスからのフィード112に対応し、第2のフィード112bはサンフランシスコオフィスからのフィード112に対応し、ホスト会議室100はシカゴオフィスに対応する。
【0025】
リモートシステム130は、スケーラブル/エラスティックリソース132を有する分散システム(例えば、クラウドコンピューティング環境またはストレージ抽象化)であり得る。リソース132は、コンピューティングリソース134(例えば、データ処理ハードウェア)および/またはストレージリソース136(例えば、メモリハードウェア)を含む。いくつかの実施形態では、リモートシステム130は、(例えば、コンピューティングリソース132上で)環境100を調整するソフトウェアをホストする。例えば、リモートシステム130のコンピューティングリソース132は、リアルタイム通信アプリケーションまたは専門会議プラットフォームなどのソフトウェアを実行する。
【0026】
図1A図1Eを引き続き参照すると、環境100は、トランスクリプタ(transcriptor)200も含む。トランスクリプタ200は、環境100内で発生するコンテンツのトランスクリプト(transcript)202を生成するように構成されている。このコンテンツは、トランスクリプタ200が存在する場所(例えば、トランスクリプタ200を備えた会議室100内の参加者10)からのもの、かつ/またはトランスクリプタ200の場所にコンテンツを伝達するコンテンツフィード112からのものであり得る。いくつかの例では、ディスプレイデバイス110は、1つまたは複数のコンテンツフィード112をトランスクリプタ200に伝達する。例えば、ディスプレイデバイス110は、コンテンツフィード112の音声コンテンツ218をトランスクリプタ200に出力するスピーカを含む。いくつかの実施形態では、トランスクリプタ200は、ディスプレイデバイス110と同じコンテンツフィード112を受信するように構成される。言い換えれば、ディスプレイデバイス110は、コンテンツフィード112の音声フィードおよびビデオフィードを受信することによって、トランスクリプタ200の拡張として機能し得る。例えば、ディスプレイデバイス110は、データ処理ハードウェア212、およびデータ処理ハードウェア212にトランスクリプタ200を実行させる、データ処理ハードウェア212と通信するメモリハードウェア214等のハードウェア210を含み得る。この関係において、トランスクリプタ200は、ディスプレイデバイス110のスピーカなどの周辺機器を介して中継される音声コンテンツ/音声信号218を可聴的にキャプチャするだけでなく、ネットワーク接続を介してコンテンツフィード112(例えば、音声および映像コンテンツ/音声および映像信号218、217)を受信し得る。いくつかの例では、トランスクリプタ200とディスプレイデバイス110との間のこの接続性により、トランスクリプタ200は、環境100(例えば、ホスト会議室)内でローカルにディスプレイデバイス110のディスプレイ/画面111上にトランスクリプト202をシームレスに表示することができる。他の構成では、トランスクリプタ200は、ディスプレイデバイス110と同じローカル環境110に配置されるが、ディスプレイデバイス110とは別のコンピューティングデバイスに対応している。これらの構成では、トランスクリプタ200は、有線接続または無線接続を介してディスプレイデバイス110と通信する。例えば、トランスクリプタ200は、ディスプレイデバイス110がトランスクリプタ200の周辺機器として機能するように、有線接続/無線接続を可能にする1つまたは複数のポートを有する。追加的または代替的に、環境100を形成するアプリケーションは、トランスクリプタ200と互換性があり得る。例えば、トランスクリプタ200は、アプリケーション内の入力/出力(I/O)デバイスとして構成されて、アプリケーションによって調整された音声信号および/または映像信号が、(例えば、ディスプレイデバイス110に加えて)トランスクリプタ200に送られるようになる。
【0027】
いくつかの例では、トランスクリプタ200(および任意選択でディスプレイデバイス110)は、トランスクリプタ200が会議室間で移動され得るように携帯可能である。いくつかの実施形態では、トランスクリプタ200は、コンテンツ112が環境100に提示されているときに、音声コンテンツおよびビデオコンテンツ112を処理して、トランスクリプト202を生成する処理能力(例えば、処理ハードウェア/ソフトウェア)を備えて構成される。言い換えれば、トランスクリプタ200は、(例えば、リモートシステム130における)追加のリモート処理なしにトランスクリプト202を生成するために、トランスクリプタ200において局所的にコンテンツ112(例えば、音声および/または映像コンテンツ218、217)を処理するように構成される。本明細書では、この種の処理をオンデバイス処理(on-device processing)と呼ぶ。帯域幅の制約のためにサーバベースのアプリケーションで低忠実度の圧縮ビデオを使用することが多いリモート処理とは異なり、オンデバイス処理では帯域幅の制約がないため、トランスクリプタ200は映像コンテンツを処理する際に高忠実度でより正確な高解像度ビデオを利用することが可能となり得る。さらに、このオンデバイス処理により、音声信号および/または映像信号218、217が(例えば、トランスクリプタ200に接続されたリモートコンピューティングシステム130において)ある程度リモート処理された場合に発生する可能性がある待ち時間による遅延なしに、話者の識別情報をリアルタイムで追跡することが可能となり得る。トランスクリプタ200でコンテンツを処理するために、トランスクリプタ200は、データ処理ハードウェア212およびデータ処理ハードウェア212と通信するメモリハードウェア214等のハードウェア210を含む。データ処理ハードウェア212のいくつかの例は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、またはテンソル処理装置(TPU)を含む。
【0028】
いくつかの実施形態では、トランスクリプタ200は、第1および第2のフィード112a-bの各々からコンテンツ112(音声データおよびビデオデータ217、218)、ならびに会議室環境100からのフィード112を受信することによって、リモートシステム130上で実行される。例えば、リモートシステム130のデータ処理ハードウェア134は、トランスクリプタ200を実行するために、リモートシステム130のメモリハードウェア136に格納された命令を実行し得る。ここで、トランスクリプタ200は、音声データ218および画像データ217を処理して、トランスクリプト202を生成し得る。例えば、トランスクリプタ200は、トランスクリプト202を生成し、トランスクリプト202をディスプレイデバイス110上に表示するためにネットワーク120を介してディスプレイデバイス110に送信し得る。トランスクリプタ200は、同様に、トランスクリプト202を、第1のフィードに対応する参加者10g-iおよび/または第2のフィード10jに対応する参加者10jに関連するコンピューティングデバイス/ディスプレイデバイスに送信し得る。
【0029】
処理ハードウェア210に加えて、トランスクリプタ200は周辺機器216を含む。例えば、音声コンテンツを処理するために、トランスクリプタ200は、トランスクリプタ200の周辺の音(例えば、音声発話)をキャプチャし、その音を音声信号218(図2Aおよび図2B)(または音声データ218)に変換する音声キャプチャデバイス216、216a(例えば、マイク)を含む。次に、音声信号218は、トランスクリプト202を生成するためにトランスクリプタ200によって使用され得る。
【0030】
いくつかの例では、トランスクリプタ200は、周辺機器216として画像キャプチャデバイス216、216bを含む。ここで、画像キャプチャデバイス216b(例えば、1つまたは複数のカメラ)は、音声信号218と組み合わせて、多人数参加者の環境100内で、どの参加者10が話しているか(即ち、話者)を識別するのを支援する追加の入力ソース(例えば、映像入力)として画像データ217(図2Aおよび図2B)をキャプチャし得る。言い換えれば、音声キャプチャデバイス216aおよび画像キャプチャデバイス216bの両方を含むことによって、トランスクリプタ200は、画像キャプチャデバイス216bによってキャプチャされた画像データ217を処理して、複数の参加者10a-10jのうち、どの参加者10が特定のインスタンスで話している(即ち、発話12を生成している)かを示す視覚的特徴(例えば、顔の特徴)を識別し得るので、トランスクリプタ200は、話者識別に対する精度を高めることができる。いくつかの構成では、画像キャプチャデバイス216bは、環境100の全景をキャプチャするために、トランスクリプタ200の周囲360度をキャプチャするように構成される。例えば、画像キャプチャデバイス216bは、360度の視野をキャプチャするように構成されたカメラのアレイを含む。
【0031】
追加的または代替的に、画像データ217を使用することにより、参加者10が言語障害(speech disability)を有する場合に、トランスクリプト202を改善し得る。例えば、トランスクリプタ200は、話者が発話を明瞭に発音するのに問題を引き起こす言語障害のある話者に関するトランスクリプトを生成することが困難な場合がある。そのような明瞭な発音の問題によって引き起こされるトランスクリプト202の不正確さを克服するために、(例えば、図2Aおよび図2Bの自動音声認識(ASR)モジュール230における)トランスクリプタ200に、トランスクリプト202の生成中に、明瞭な発音の問題を認識させることができる。問題を認識することによって、トランスクリプタ200は、会話中に参加者10の顔を表す画像データ217を活用して、トランスクリプト202が参加者10の音声データ218のみに基づいている場合よりも、改善された、またはそれ以外により正確なトランスクリプト202を生成することによって、問題に対応し得る。ここで、特定の言語障害は、画像キャプチャデバイス216bからの画像データ217において顕著である場合がある。例えば、構音障害(speech dysarthria)の場合、明瞭な発音に影響を与える口唇運動を引き起こす神経筋障害が、画像217において認識され得る。さらに、画像データ217を分析して、特定の言語障害を有する参加者10の口唇運動を、これらの参加者10によって意図された発話に相関させることで、音声データ218のみを使用しては不可能な方法で自動音声認識を改善することができる技術が使用され得る。いくつかの実施形態では、画像217をトランスクリプタ200への入力として使用することにより、トランスクリプタ200は、潜在的な明瞭な発音の問題を識別し、この問題を考慮して、ASR中のトランスクリプション202の生成を改善する。
【0032】
図1B図1Eなどのいくつかの実施形態では、トランスクリプタ200は、参加者10が(例えば、トランスクリプト202または映像フィード112、217において)自身の音声情報および/または画像情報の共有をオプトアウトすることができるように、プライバシーに配慮している。ここで、1人または複数人の参加者10は、ビデオ会議環境100への参加中に、参加者10に関するプライバシー条件を示すプライバシー要求14を伝達する。いくつかの例では、プライバシー要求14は、トランスクリプタ200の構成設定に対応する。プライバシー要求14は、トランスクリプタ200を用いた会議または通信セッションの前、最中、または開始時に発生し得る。いくつかの構成では、トランスクリプタ200は、参加者10に関する1つまたは複数のプライバシー要求14(例えば、図5の個人プロファイル510、510a-n)を示すプロファイル(例えば、図5に示されるプロファイル500)を含む。ここで、プロファイル500は、デバイス上に(例えば、メモリハードウェア214に)格納されるか、またはデバイス外に(例えば、リモートストレージリソース136に)格納され、かつトランスクリプタ200によってアクセスされ得る。プロファイル500は、通信セッションの前に構成されるとともに、参加者10が受信したビデオコンテンツ217の個々の部分と相関されることができるように、個々の参加者の10の顔の画像(例えば、画像データ217)を含み得る。即ち、コンテンツフィード112内のその参加者10のビデオコンテンツ217が、個人プロファイル510に関連付けられた顔の画像と一致する場合、個々の参加者10に対する個人プロファイル510にアクセスすることができる。個人プロファイル510を用いて、参加者10が参加する各通信セッション中に参加者のプライバシー設定を適用し得る。これらの例では、トランスクリプタ200は、(例えば、トランスクリプタ200で受信された画像データ217に基づいて)参加者10を認識し、参加者10に対して適切な設定を適用することができる。例えば、プロファイル500は、特定の参加者10bが見られることを気にしない(即ち、映像フィード217に含まれることを気にしない)が、聞かれることを望まず(即ち、音声フィード218に含まれないことを望む)、自身の発話12がトランスクリプトされることを望まない(即ち、トランスクリプト202に会話が含まれないことを望む)ことを示す特定の参加者10、10bに関する個人プロファイル510、510bを含むことができ、一方、別の参加者10、10cに関する個人プロファイル510、510cは、見られることを望まない(即ち、映像フィード217に含まれないことを望む)が、自身の発話が記録および/またはトランスクリプトされることは問題ない(即ち、音声フィード218に含まれ、トランスクリプト202に含まれることは問題ない)という場合がある。
【0033】
図1Bを参照すると、第3の参加者10cは、第3の参加者10cが見られたり聞かれたりすることを気にしないが、第3の参加者10cが話す際に第3の参加者10cに関する識別子204(例えば、話者の識別情報のラベル)をトランスクリプト202が含むことを望まないことを示すプライバシー条件を有するプライバシー要求14(即ち、識別情報プライバシーに関するプライバシー要求14)を提出した。言い換えれば、第3の参加者10cは、自身の識別情報が共有または保存されることを望まない。従って、第3の参加者10cは、自身の識別情報を明らかにする第3の参加者10cに関連付けられた識別子204をトランスクリプト202が含まないことを選択する。ここで、図1Bでは、話者3の識別子204が存在するであろう編集された灰色のボックスを有するトランスクリプト202を示しているが、トランスクリプタ200は、識別子204を完全に除去するか、またはプライバシー要求14に関連付けられた話者の識別情報をトランスクリプタ200によって明らかにされることを防止する他の方法で、識別子204を不鮮明にしてもよい。言い換えれば、図1Bは、トランスクリプタ200が話者の識別情報を含まないように(例えば、識別子204を除去または不鮮明にすることによって)トランスクリプト202の一部を変更することを示している。
【0034】
図1Cは、プライバシー要求14を伝達する第3の参加者10cが、環境100のどの映像フィード112、217でも見られないように要求すること(例えば、別の形態の識別情報プライバシー)を除いて、図1Bと同様である。ここで、要求する参加者10cは、聞かれることを気にしなが、自身の映像識別情報を視覚的に隠す(即ち、自身の映像識別情報を映像フィード112、217内で共有しないか、または保存しない)ことを好む。この状況では、トランスクリプタ200は、参加者10、10a-10jの間の通信セッションを通して、要求する参加者10cの映像的存在をぼかす、歪ませる、またはそれ以外に不鮮明にするように構成される。例えば、トランスクリプタ200は、1つまたは複数のコンテンツフィード112から受信した画像データ217から、任意の特定のインスタンスにおける要求者10cの位置を決定し、トランスクリプタ200を介して伝達される要求者の任意の物理的特徴に抽象化(abstraction)(例えば、ぼかし)119を適用する。即ち、画像データ217がディスプレイデバイス110の画面111上に表示されるとともに、参加者10g-10jに関連するリモート環境の画面上に表示されるときに、抽象化119が少なくとも要求者10cの顔に重なって、要求者10cを視覚的に識別できないようにする。いくつかの例では、参加者10に関する個人プロファイル510は、参加者10がぼやけているか、または不鮮明になっている(即ち、歪んでいる)か、または完全に除去されること(例えば、図5に示すように)を望んでいるかどうかを識別する。従って、トランスクリプタ200は、参加者の映像識別情報を隠すために、ビデオデータ217の一部を増強する(augment)、修正する、または除去するように構成される。
【0035】
対照的に、図1Dは、第3の参加者10cからのプライバシー要求14が、トランスクリプタ200が第3の参加者10cの映像表現または第3の参加者10cの会話情報のいずれも追跡しないことを要求する例を示す。本明細書で使用される場合、「会話情報」は、参加者10cによって話された発話12に対応する音声データ218、ならびに参加者10cによって話された発話12に対応する音声データ218から認識されたトランスクリプト202を指す。この例では、参加者10cは会議中に聞いてもらうことはできるが、トランスクリプタ200は、参加者10cを可聴的または視覚的に(例えば、ビデオフィード217またはトランスクリプト202によって)記憶しない。この手法は、トランスクリプト202に参加者10cの会話情報の記録、またはトランスクリプト202に参加者10cを識別する識別子204の記録を行わないことにより、参加者の10cのプライバシーを保護することができる。例えば、トランスクリプタ200は、参加者10cによって話された発話12を文字起こしする(transcribe)トランスクリプト202内のテキストの部分を完全に省略する(omit)か、またはトランスクリプト202は、テキストのこれらの部分を残したまま、参加者10cを識別する識別子204を適用しないようにする。しかしながら、トランスクリプタ200は、参加者10cを個人的に識別せずに、トランスクリプション202内のテキストのこれらの部分を、他の参加者10a、10b、10d-10jによって話された発話12に対応する他の部分から単に区別する他の任意の識別子を適用してもよい。言い換えれば、参加者10は、トランスクリプト202およびトランスクリプタ200によって生成された他のいかなる記録も、参加者の通信セッションへの参加の記録を持たないように(例えば、プライバシー要求14により)要求することができる。
【0036】
識別情報プライバシー要求14とは対照的に、図1Eはコンテンツプライバシー要求14を示している。この例では、第3の参加者10cは、トランスクリプタ200が第3の参加者10cからのコンテンツをトランスクリプト202に含めないようにプライバシー要求14を伝達する。ここで、第3の参加者10cがこのようなプライバシー要求14を行うのは、第3の参加者10cが会議中に機密コンテンツ(例えば、機密情報)について話し合う予定であるからである。コンテンツの秘密性のために、第3の参加者10cは、トランスクリプタ200が、第3の参加者10cに関連付けられた音声コンテンツ218をトランスクリプト202内に記憶させないという予防策を講じる。いくつかの実施形態では、トランスクリプタ200は、1人または複数の参加者10がトランスクリプト202に含まれることを望まないコンテンツの種別を(例えば、キーワードによって)識別するプライバシー要求14を受信して、トランスクリプト202からその種別のコンテンツを排除するために、通信セッション中にその種別のコンテンツが発生する時期を決定するように構成される。これらの実施形態では、特定の参加者が依然として他の種別のコンテンツについて話し合い、かつトランスクリプト202に含まれ得るように、特定の参加者10からの全ての音声コンテンツ218がトランスクリプト202から排除されるわけではなく、コンテンツ固有の音声のみが排除される。例えば、第3の参加者10cは、トランスクリプタ200がマイク(Mike)についての音声コンテンツを文字起こししないことを要求するプライバシー要求14を伝達する。この場合、第3の参加者10cがマイクについて話し合うとき、トランスクリプタ200は、この音声コンテンツ218を文字起こししないが、第3の参加者が他のトピック(例えば、天気)について話すとき、トランスクリプタ200はこの音声コンテンツ218を文字起こしする。同様に、参加者10cは、トランスクリプタ200が、一定時間(例えば、次の2分間)音声コンテンツ218を記憶しないように時間境界を設定し得る。
【0037】
図2Aおよび図2Bは、トランスクリプタ200の例である。トランスクリプタ200は、一般に、ダイアライゼーションモジュール220およびASRモジュール230(例えば、AVASRモジュール)を含む。ダイアライゼーションモジュール220は、(例えば、音声キャプチャデバイス216aによってキャプチャされた)通信セッションの参加者10からの発話12に対応する音声データ218と、通信セッションの参加者10の顔を表す画像データ217とを受信し、音声データ218を複数のセグメント222、222a-n(例えば、固定長セグメントまたは可変長セグメント)に分割し、音声データ218および画像データ217に基づく確率モデル(例えば、確率的生成モデル(probabilistic generative model))を使用して、各セグメント222に割り当てられた対応する話者ラベル226を含むダイアライゼーション結果224を生成するように構成される。言い換えれば、ダイアライゼーションモジュール220は、短い発話(例えば、セグメント222)を有する一連の話者認識タスクを含み、所与の会話の2つのセグメント222が同じ参加者10によって話されたかどうかを決定する。同時に、ダイアライゼーションモジュール220は、話者認識をさらに最適化するために、顔追跡ルーチンを実行して、どの参加者10がどのセグメント222の間に話しているかを識別し得る。次に、ダイアライゼーションモジュール220は、会話の全てのセグメント222に対してプロセスを繰り返すように構成される。ここで、ダイアライゼーション結果224は、所与のセグメント222の間に話している人物を識別するだけでなく、隣接するセグメント222間で話者の変更が生じた時期も識別する、受信音声データ218に対するタイムスタンプ付きの話者ラベル226、226a-eを提供する。ここで、話者ラベル226は、トランスクリプト202内の識別子204として機能し得る。
【0038】
いくつかの例では、トランスクリプタ200は、ダイアライゼーションモジュール220においてプライバシー要求14を受信する。ダイアライゼーションモジュール220は、話者ラベル226または識別子204を識別するので、ダイアライゼーションモジュール220は、識別情報ベースのプライバシー要求14に対応するプライバシー要求14を有利に解決し得る。言い換えれば、ダイアライゼーションモジュール220は、プライバシー要求14が、参加者10が話者である場合に、ラベル226などの識別子204によって参加者10を識別しないようにすることを要求する場合に、プライバシー要求14を受信する。ダイアライゼーションモジュール220がプライバシー要求14を受信すると、ダイアライゼーションモジュール220は、要求14に対応する参加者10が所与のセグメント222に対して生成されたラベル226と一致するかどうかを判断するように構成される。いくつかの例では、参加者10の顔の画像を使用して、参加者10をその参加者10に関するラベル226に関連付けることができる。セグメント222に対するラベル226が、要求14に対応する参加者10の識別情報と一致する場合、ダイアライゼーションモジュール220は、トランスクリプタ200が、特定のセグメント222をテキストに文字起こししたものである得られたトランスクリプション202の対応する部分にラベル226または識別子204を適用することを防止し得る。セグメント222に対するラベル226が、要求14に対応する参加者10の識別情報と一致しない場合、ダイアライゼーションモジュール220は、トランスクリプタが、特定のセグメントをテキストに文字起こしたものである得られたトランスクリプション202の部分にラベル226および識別子204を適用することを可能にし得る。いくつかの実施形態では、ダイアライゼーションモジュール220が要求14を受信すると、ASRモジュール230は、発話12からの音声データ218を文字起こしするのを待つように構成される。他の実施形態では、ASRモジュール230は、リアルタイムで文字起こしし、得られたトランスクリプション202は、自身の会話情報が文字起こしされることをオプトアウトするプライバシー要求14を提供する任意の参加者10に対してラベル226および識別子204をリアルタイムで除去する。任意選択で、ダイアライゼーションモジュール220は、プライバシーを求めるこれらの参加者10に関連する音声データ218をさらに歪ませて、参加者10を識別するために使用できないように参加者10の話す声が変更されるようにしてもよい。
【0039】
ASRモジュール230は、発話12に対応する音声データ218と、発話12を行っている間の参加者10の顔を表す画像データ217とを受信するように構成される。画像データ217を使用して、ASRモジュール230は、音声データ218を対応するASR結果232に文字起こしする。ここで、ASR結果232は、音声データ218のテキスト文字起こし(例えば、トランスクリプト202)のことを指す。いくつかの例では、ASRモジュール230は、ダイアライゼーションモジュール220と通信して、音声データ218に関連付けられたダイアライゼーション結果224を利用して、発話12に基づく音声認識を改善する。例えば、ASRモジュール230は、ダイアライゼーション結果224から識別された異なる話者に対して、異なる音声認識モデル(例えば、言語モデル、韻律モデル)を適用することができる。追加的または代替的に、ASRモジュール230および/またはダイアライゼーションモジュール220(またはトランスクリプタ200のいくつかの他の構成要素)は、ダイアライゼーション結果224から得られた、各セグメント222に対して予測されたタイムスタンプ付きの話者ラベル226を用いて、音声データ218のトランスクリプション232にインデックスを付けることができる。別の言い方をすれば、ASRモジュール230は、ダイアライゼーションモジュール220からの話者ラベル226を使用して、トランスクリプト202内の話者に対する識別子204を生成する。図1A図1Eに示されるように、各話者/参加者10が何を言ったのかを識別するために、トランスクリプト202の複数の部分を個々の話者/参加者10に関連付け得るように環境100内の通信セッションに対するトランスクリプト202が、話者/参加者10によってインデックス付けされる。
【0040】
いくつかの構成では、ASRモジュール230は、トランスクリプタ200に対するプライバシー要求14を受信する。例えば、ASRモジュール230は、プライバシー要求14が特定の参加者10の会話を文字起こししない要求14に対応するときには必ず、トランスクリプタ200に対するプライバシー要求14を受信する。言い換えれば、ASRモジュール230は、要求14がラベル/識別子ベースのプライバシー要求14ではないときには必ず、プライバシー要求14を受信する。いくつかの例では、ASRモジュール230がプライバシー要求14を受信すると、ASRモジュール230は、ダイアライゼーションモジュール220によって決定された話者ラベル226に基づいて、プライバシー要求14に対応する参加者10を最初に識別する。次に、ASRモジュール230がその参加者10に対して文字起こしされるべき会話に遭遇すると、ARSモジュール230は、プライバシー要求14を適用する。例えば、プライバシー要求14がその特定の参加者10の会話を文字起こししないことを要求する場合、ASRモジュール230はその参加者の会話を一切文字起こしせず、別の参加者10によって会話が生じるのを待つ。
【0041】
図2Bを参照すると、いくつかの実施形態において、トランスクリプタ200は、顔追跡ルーチンを実行するための検出器240を含む。これらの実施形態では、トランスクリプタ200は、音声データ218を最初に処理して、話者に対する1つまたは複数の候補識別情報を生成する。例えば、各セグメント222に対して、ダイアライゼーションモジュール220は、話者に対する候補識別情報として複数のラベル226、226a1-3を含み得る。言い換えれば、モデルは、各セグメント222に対する複数のラベル226、226a1-3を出力する確率モデルであり得る。ここで、複数のラベル226、226a1-3の各ラベル226は、話者を識別する潜在的な候補である。ここで、トランスクリプタ200の検出器240は、画像キャプチャデバイス216bによってキャプチャされた画像217、217a-nを使用して、どの候補識別情報が特定のセグメント22の話者であることを示す最良の視覚的特徴を有していたかを決定する。いくつかの構成では、検出器240は、各候補識別情報に対してスコア242を生成し、スコア242は、音声信号(例えば、音声データ218)と映像信号(例えば、キャプチャされた画像217a-n)との間の関連性に基づいて、候補識別情報が話者であるという信頼度レベルを示す。ここで、最高のスコア242は、候補識別情報が話者である可能性が最も高いことを示し得る。図2Bでは、ダイアライゼーションモジュール220は、特定のセグメント222において3つのラベル226a1-3を生成する。検出器240は、セグメント222が発生する音声データ218内の時間からの画像217に基づいて、これらのラベル226の各々に対してスコア242(例えば、3つのスコア2421-3として示される)を生成する。ここで、図2Bは、第3のスコア242に関連する第3のラベル226aの周りの太字の四角によって最高のスコア242を示している。トランスクリプタ200が検出器240を含む場合、最良の候補識別情報は、トランスクリプト202の識別子204を形成するために、ASRモジュール230に伝達され得る。
【0042】
追加的または代替的に、トランスクリプタ200が画像データ217を最初に処理して、画像データ217に基づいて話者に対する1つまたは複数の候補識別情報を生成するように、プロセスを逆にしてもよい。次に、各候補識別情報に対して、検出器240は、対応する候補識別情報の顔が音声データ218の対応するセグメント222の間に、話をしている顔を含んでいる可能性を示す信頼度スコア242を生成する。例えば、各候補識別情報に対する信頼度スコア242は、対応する候補識別情報の顔が音声データ218のセグメント222の時間のインスタンスに対応する画像データ217の間に、話をしている顔を含んでいる可能性を示す。言い換えれば、各セグメント222に対して、検出器240は、参加者10に対応する画像データ217が話をしている顔の表情に類似するかまたはそれに一致する表情を有しているかどうかをスコア242に付けることができる。ここで、検出器240は、最高の信頼度スコア242を有する音声データ218の対応するセグメントの話者の識別情報を候補識別情報として選択する。
【0043】
いくつかの例では、検出器240は、ASRモジュール230の一部である。ここで、ASRモジュール230は、画像データ217の複数のビデオトラック217a-nを受信するように構成されたアテンション層を有するエンコーダフロントエンドを実装することによって顔追跡ルーチンを実行し、それによって、各ビデオトラックは、個々の参加者の顔に関連付けられる。これらの例では、ASRモジュール230におけるアテンション層は、ビデオ顔トラックに関連付けられた個々の人の顔が音声トラックの話をしている顔を含む可能性を示す信頼度スコアを決定するように構成される。複数話者ASR認識用のアテンション層を備えたエンコーダフロントエンドを含む音声映像ASRモジュールに関連する追加のコンセプトおよび特徴は、参照によりその全体が組み込まれる、2019年10月18日に出願された米国仮特許出願第62/923,096号に記載されている。
【0044】
いくつかの構成では、(例えば、ASRモジュール230における)トランスクリプタ200は、多言語環境100をサポートするように構成される。例えば、トランスクリプタ200がトランスクリプト202を生成する場合、トランスクリプタ200は、複数の別個の言語でトランスクリプト202を生成することができる。この機能は、環境100が、ホストロケーションとは異なる言語を話す1人または複数の参加者10を有するリモートロケーションを含むことを可能にし得る。さらに、状況によっては、会議における話者が、非母国語の話者であったり、または会議の言語が話者の第一言語ではない話者である場合がある。ここで、話者からのコンテンツのトランスクリプト202は、会議の他の参加者10が提示されたコンテンツを理解するのを支援し得る。追加的または代替的に、トランスクリプタ200を使用して、話者に自身の発音に関するフィードバックを提供してもよい。ここで、ビデオデータおよび/または音声データを組み合わせることによって、トランスクリプタ200は、(例えば、話者がトランスクリプタ200の支援を受けて学習および/または適応することを可能にする)誤った発音を示し得る。そのようなものとして、トランスクリプタ200は、自身の発音に関するフィードバックを提供する通知を、話者に提供することができる。
【0045】
図3は、(例えば、トランスクリプタ200のデータ処理ハードウェア212において)コンテンツを文字起こしする方法300に関する例示的な動作の構成である。動作302において、方法300は、音声データ218および画像データ217を含む音声映像信号217、218を受信することを含む。音声データ218は、会話環境100における複数の参加者10、10a-nからの音声発話12に対応し、画像データ217は、会話環境100における複数の参加者10の顔を表す。動作304において、方法300は、複数の参加者10a-nのうちの1人の参加者10からプライバシー要求14を受信することを含む。プライバシー要求14は、会話環境100における参加者10に関連するプライバシー条件を示す。動作306において、方法300は、音声データ218を複数のセグメント222、222a-nに分割する。動作308において、方法300は、音声データ218の各セグメント222に対して動作308、308a-cを実行することを含む。動作308aにおいて、音声データ218の各セグメント222に対して、方法300は、複数の参加者10a-nの中から、画像データ217に基づいて、音声データ218の対応するセグメント222の話者の識別情報を決定することを含む。動作308bにおいて、音声データ218の各セグメント222に対して、方法300は、対応するセグメント222の話者の識別情報が、受信したプライバシー要求14によって示されるプライバシー条件に関連する参加者10を含むかどうかを判定することを含む。動作308cにおいて、音声データ218の各セグメント222に対して、対応するセグメント222の話者の識別情報が参加者10を含む場合、方法300は、対応するセグメント222にプライバシー条件を適用することを含む。動作310において、方法300は、音声データ218のトランスクリプト202を決定するために、音声データ218の複数のセグメント222a-nを処理することを含む。
【0046】
本明細書で説明される特定の実施形態がユーザに関する個人情報(例えば、他の電子通信から抽出されたユーザデータ、ユーザのソーシャルネットワークに関する情報、ユーザの位置、ユーザの時間、ユーザの生体情報、およびユーザの活動および人口統計情報、ユーザ間の関係など)を収集または使用する可能性がある状況において、ユーザには、情報を収集するかどうか、個人情報を保存するかどうか、個人情報を使用するかどうか、およびユーザに関する情報を収集、保存、および使用する方法について制御するための1つまたは複数の機会が提供される。即ち、本明細書で説明されるシステムおよび方法は、関連するユーザからそのようにするための明示的な承認を受け取った場合にのみ、ユーザの個人情報を収集、保存、および/または使用し得る。
【0047】
例えば、ユーザには、プログラムまたは機能が、その特定のユーザまたはプログラムまたは機能に関連する他のユーザに関するユーザ情報を収集するかどうかについての制御が提供される。個人情報が収集される各ユーザには、そのユーザに関連する情報収集についての制御を可能にし、情報が収集されるかどうか、および情報のどの部分が収集されるかについての許可または承認を提供するための1つまたは複数のオプションが提示される。例えば、通信ネットワークを介して1つまたは複数のそのような制御オプションをユーザに提供することができる。さらに、特定のデータは、保存または使用される前に個人を特定可能な情報が削除されるように、1つまたは複数の方法で処理され得る。一例として、ユーザの識別情報は、個人を特定できる情報を特定できないように扱われ得る。
【0048】
図4は、本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および/または特許請求の範囲に記載される本発明の実施形態を限定するものではない。
【0049】
コンピューティングデバイス400は、プロセッサ410(例えば、データ処理ハードウェア)、メモリ420(例えば、メモリハードウェア)、ストレージデバイス430、メモリ420および高速拡張ポート450に接続する高速インターフェース/コントローラ440、および低速バス470およびストレージデバイス430に接続する低速インターフェース/コントローラ460を含む。構成要素410、420、430、440、450、および460の各々は、様々なバスを使用して相互接続されており、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ410は、メモリ420またはストレージデバイス430に格納された命令を含む、コンピューティングデバイス400内で実行するための命令を処理して、高速インターフェース440に接続されたディスプレイ480などの外部入力/出力デバイス上にグラフィカルユーザインターフェース(GUI)用のグラフィカル情報を表示することができる。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび/または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス400が接続され、各デバイスが(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な処理の一部を提供してもよい。
【0050】
メモリ420は、コンピューティングデバイス400内に非一時的に情報を格納する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的メモリ420は、コンピューティングデバイス400によって使用するための一時的または永久的な基準でプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を格納するために使用される物理デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ(ROM)/プログラム可能読み出し専用メモリ(PROM)/消去可能プログラム可能読み出し専用メモリ(EPROM)/電子消去可能プログラム可能読み出し専用メモリ(EEPROM)(例えば、通常、ブートプログラムなどのファームウェアに使用される)が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープが含まれる。
【0051】
ストレージデバイス430は、コンピューティングデバイス400の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス430は、コンピュータ可読媒体である。様々な異なる実施形態では、ストレージデバイス430は、フロッピーディスク(登録商標)デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような1つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ420、ストレージデバイス430、またはプロセッサ410上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
【0052】
高速コントローラ440は、コンピューティングデバイス400の帯域幅を大量に使用する処理を管理し、低速コントローラ460は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ440は、メモリ420、ディスプレイ480(例えば、グラフィックプロセッサまたはアクセラレータを介する)、および各種拡張カード(図示せず)を受け入れる高速拡張ポート450に接続される。いくつかの実施形態では、低速コントローラ460は、ストレージデバイス430および低速拡張ポート470に接続される。様々な通信ポート(例えば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含む低速拡張ポート470は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの1つまたは複数の入力/出力デバイスに接続され得る。
【0053】
コンピューティングデバイス400は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、それは、標準サーバ400aとして、またはそのようなサーバ400aのグループ内で複数回、ラップトップコンピュータ400bとして、またはラックサーバシステム400cの一部として実施することができる。
【0054】
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。
【0055】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0056】
本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための1つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つまたは複数の大容量ストレージデバイス(例えば、磁気ディスク、光磁気ディスク、または光ディスク)からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス(例えば、EPROM、EEPROM、およびフラッシュメモリデバイス)、磁気ディスク(例えば、内蔵ハードディスクまたはリムーバブルディスク)、光磁気ディスク、およびCDROMおよびDVD-ROMディスクを含むすべての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。
【0057】
ユーザとのインタラクションを提供するために、本開示の1つまたは複数の態様は、例えば、CRT(陰極線管)、LDC(液晶ディスプレイ)モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイスと、任意選択でユーザがコンピュータに入力を提供するキーボードおよびポインティングデバイス(例えば、マウスやトラックボール)とを有するコンピュータデバイス上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得るユーザに提供されるフィードバックとともにユーザとのインタラクションを提供することもでき、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって(例えば、ウェブブラウザから受信した要求に応答してユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって)、ユーザとインタラクションすることができる。
【0058】
いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図3
図4
図5