【課題を解決するための手段】
【0005】
本開示の実施形態は、音声の影響を修正するための方法を説明する。この方法は、人と関連した感情状態を判定すること、及びこの感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの方法は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及びこの第二音声サンプルを送信することを備える。
【0006】
さらに実施形態は、とりわけ、上記で説明された技術を実装するように設定されたシステム及び非一時的なコンピュータ可読記憶媒体を提供する。
【0007】
開示された技術の少なくとも1つの利点は、話し手の音声の影響を強調して、話し手が彼らの感情状態をより効果的に伝えること、及び/または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができる。加えて、話し手の音声での影響を低減及び/または変更し、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手との交流を必要とせずに、1つ以上のタイプのセンサ・データを介して自動的に判定されることができる。
【0008】
1つ以上の実施形態の列挙された特徴が上記で説明する方式を詳細に理解することが可能であるために、1つ以上の実施形態のより詳細な説明は、上記で簡潔に要約され、特定の具体的な実施形態を参照することで得られることができ、それらのいくつかは、添付の図面で説明される。しかしながら、添付の図面が典型的な実施形態のみを説明することでいかなる方式でもその範囲を限定するとみなされるべきではなく、さまざまな実施形態のその範囲については他の実施形態もまた包含することに留意するべきである。
例えば、本願発明は以下の項目を提供する。
(項目1)
インストラクションがプロセッサにより実行されるときに、
人と関連した感情状態を判定し、
前記感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
前記ステップを実行することで、音声の影響を修正するように前記プロセッサを構成する、前記インストラクションを含む非一時的なコンピュータ可読記憶媒体。
(項目2)
前記人と関連した前記感情状態を判定することは、視覚センサ・データを分析して前記人の1つ以上の顔特性を判定することを備える、上記項目に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目3)
前記人と関連した前記感情状態を判定することは、前記音声サンプルを分析して前記感情状態を反映する少なくとも1つの音響特性を検出することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目4)
前記少なくとも1つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目5)
前記人と関連した前記感情状態を判定することは、前記人の脳活動を分析することを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目6)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目7)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目8)
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定し、
第一重み付けを前記第一感情状態に割り当て、
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定し、
第二重み付けを前記第二感情状態に割り当て、
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定し、
第三重み付けを前記第三感情状態に割り当て、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、
ことを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目9)
前記人と関連した前記感情状態を判定することは、グラフィカル・ユーザ・インタフェースを介して前記感情状態の選択を受信することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目10)
音声の影響を修正するためのシステムにおいて、
前記ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定し、
前記優勢な感情状態に基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
ように前記プロセッサを設定する、
前記システム。
(項目11)
前記プロセッサは、前記音声サンプルを分析して前記優勢な感情状態と関連した少なくとも1つの音響特性を検出することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目に記載の前記システム。
(項目12)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人の1つ以上の顔特性を判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目13)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも1つを判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目14)
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目15)
前記ユーザの脳活動を示す前記信号は、脳波検査(EEG)信号、機能的磁気共鳴画像法(fMRI)信号、及び機能的近赤外線分光法(fNIRS)信号のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記システム。
(項目16)
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定し、
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択する、
ことにより前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目17)
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目18)
音声の影響の修正方法において、
人及び前記人からの音声サンプルと関連したセンサ・データを取得し、
前記センサ・データに基づき前記人と関連した感情状態を判定し、
前記感情状態及び前記音声サンプルを示すデータをリモート・デバイスへ送信する、
ことを備える、前記方法。
(項目19)
前記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記方法。
(項目20)
前記リモート・デバイスは、前記人と関連した前記感情状態に基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、上記項目のうちのいずれか一項に記載の前記方法。
(摘要)
音声の影響を修正するための技術。この技術は、人と関連した感情状態を判定すること、及び感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの技術は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及び第二音声サンプルを送信することを備える。