特許第6863733号(P6863733)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハーマン インターナショナル インダストリーズ インコーポレイテッドの特許一覧

<>
  • 特許6863733-音声影響修正 図000002
  • 特許6863733-音声影響修正 図000003
  • 特許6863733-音声影響修正 図000004
  • 特許6863733-音声影響修正 図000005
  • 特許6863733-音声影響修正 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6863733
(24)【登録日】2021年4月5日
(45)【発行日】2021年4月21日
(54)【発明の名称】音声影響修正
(51)【国際特許分類】
   G10L 21/013 20130101AFI20210412BHJP
   G10L 25/63 20130101ALI20210412BHJP
   G10L 21/01 20130101ALI20210412BHJP
   G10L 21/0232 20130101ALI20210412BHJP
【FI】
   G10L21/013
   G10L25/63
   G10L21/01
   G10L21/0232
【請求項の数】20
【全頁数】20
(21)【出願番号】特願2016-252683(P2016-252683)
(22)【出願日】2016年12月27日
(65)【公開番号】特開2017-129853(P2017-129853A)
(43)【公開日】2017年7月27日
【審査請求日】2019年12月10日
(31)【優先権主張番号】15/002,320
(32)【優先日】2016年1月20日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】592051453
【氏名又は名称】ハーマン インターナショナル インダストリーズ インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(72)【発明者】
【氏名】ハイメ エリオット ナフマン
(72)【発明者】
【氏名】ステファン マルティ
(72)【発明者】
【氏名】ダビデ ディ チェンソ
【審査官】 上田 雄
(56)【参考文献】
【文献】 国際公開第2013/182118(WO,A1)
【文献】 特開2002−034936(JP,A)
【文献】 米国特許出願公開第2008/0147413(US,A1)
【文献】 特開2003−271174(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−25/93
(57)【特許請求の範囲】
【請求項1】
インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションはプロセッサにより実行されるときに、
人と関連した第一感情状態及び第二感情状態が相反しないことを判定するステップと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類するステップと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成するステップと
前記第二音声サンプルを送信するステップと
を実行することで、音声の影響を修正するように前記プロセッサを構成する非一時的なコンピュータ可読記憶媒体。
【請求項2】
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、視覚センサ・データを分析して前記人の1つ以上の顔特性を判定することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項3】
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記音声サンプルを分析して感情状態を反映する少なくとも1つの音響特性を検出することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項4】
前記少なくとも1つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも1つを含む、請求項3に記載の非一時的なコンピュータ可読記憶媒体。
【請求項5】
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記人の脳活動を分析することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項6】
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも1つを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項7】
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも1つを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項8】
インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションは、プロセッサにより実行されるときに、
人と関連した感情状態を判定するステップと、
前記感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成するステップと、
前記第二音声サンプルを送信するステップと
を実行することで、音声の影響を修正するように前記プロセッサを構成し、
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定することと
第一重み付けを前記第一感情状態に割り当てることと
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定することと
第二重み付けを前記第二感情状態に割り当てることと
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定することと
第三重み付けを前記第三感情状態に割り当てることであって、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、ことと
を備える非一時的なコンピュータ可読記憶媒体。
【請求項9】
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、グラフィカル・ユーザ・インタフェースを介して感情状態の選択を受信することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
【請求項10】
音声の影響を修正するためのシステムであって前記システムは、
ーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと、
前記第一感情状態、前記第二感情状態をそれぞれ第一の優勢な感情状態、第二の優勢な感情状態として分類することと、
前記第一感情状態、前記第二感情状態をそれぞれ前記第一の優勢な感情状態、前記第二の優勢な感情状態として分類したことに応答して、前記第一の優勢な感情状態及び前記第二の優勢な感情状態のうちの少なくとも1つに基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成することと
前記第二音声サンプルを送信することと
を実行するように前記プロセッサを設定するシステム。
【請求項11】
前記プロセッサは、前記音声サンプルを分析して前記第一感情状態及び前記第二感情状態のうちの少なくとも1つと関連した少なくとも1つの音響特性を検出することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
【請求項12】
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人の1つ以上の顔特性を判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
【請求項13】
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも1つを判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
【請求項14】
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
【請求項15】
前記ユーザの脳活動を示す前記信号は、脳波検査(EEG)信号、機能的磁気共鳴画像法(fMRI)信号、及び機能的近赤外線分光法(fNIRS)信号のうちの少なくとも1つを含む、請求項14に記載のシステム。
【請求項16】
音声の影響を修正するためのシステムであって、前記システムは、
ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定することと、
前記優勢な感情状態に基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成することと、
前記第二音声サンプルを送信することと、
を実行するように前記プロセッサを設定し、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定することと
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定することと
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定することと
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択することと
により前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定するシステム。
【請求項17】
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、請求項10に記載のシステム。
【請求項18】
音声の影響修正する方法であって前記方法は、
人及び前記人からの音声サンプルと関連したセンサ・データを取得することと
前記センサ・データに基づき前記人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類することと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態のうちの少なくとも1つを示すデータ及び前記音声サンプルをリモート・デバイスへ送信することと
を備える方法。
【請求項19】
記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも1つを含む、請求項18に記載の方法。
【請求項20】
前記リモート・デバイスは、前記人と関連した前記第一感情状態及び前記第二感情状態のうちの前記少なくとも1つに基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
さまざまな実施形態は、一般的にオーディオ信号処理に関し、より具体的に音声影響修正のための技術に関する。
【背景技術】
【0002】
効果的なコミュニケーションは、健全な社会的関係やビジネス関係を構築し維持する上で重要な役割を果たす。それにもかかわらず、会話に参加するときに、多くの人々は、彼らの感情状態を正確に伝えること、及び/または彼らを取り巻く人々の、または会話に直接参加する人々の感情状態を正確に判定することが難しい。たとえば、一般的に異なる文化は、異なるタイプの表情、手ぶり、身ぶりなどにより感情を表現する。その結果、これらの文化的な違いにより、異なる文化背景から人々は、会話中に互いに彼らの感情を効果的に伝えることが困難な場合がある。別の実施例として、一般的に自閉症スペクトラムの人々は、他の人々とコミュニケートする、または交流するときに、彼らの感情を正確に伝えること、及び他の人々の感情を解釈することが困難である。
【0003】
人々がコミュニケートするときに彼らの感情状態をより効果的に伝えることを可能にするために、いくつかの電子通信形態は、ユーザがグラフィカル・シンボルを介して彼らの感情を明確に示すことを可能にする。たとえば、多くのテキスト・メッセージング・プラットフォームは、ユーザが彼または彼女の感情状態を別のユーザへグラフィカルに伝えるために選択することが可能である、グラフィカルな表情(すなわち、顔文字)を含む。しかしながら、これらのタイプのプラットフォーム以外に、実際の、及び/または人との交流の中で感情状態を伝えて解釈する際にユーザを自動的に支援するために現在利用可能なシステムがない。その結果、感情状態を効果的に伝えて解釈する彼らの能力がないため、多くの人々は、健全な関係を築いて維持する彼らの能力を抑制する、コミュニケーション及び社会的交流で苦労し続ける。
【0004】
前述の説明のように、互いにコミュニケートする、または交流するときに、人々の感情状態を伝えて解釈するためのより効果的な技術は、役立つであろう。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施形態は、音声の影響を修正するための方法を説明する。この方法は、人と関連した感情状態を判定すること、及びこの感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの方法は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及びこの第二音声サンプルを送信することを備える。
【0006】
さらに実施形態は、とりわけ、上記で説明された技術を実装するように設定されたシステム及び非一時的なコンピュータ可読記憶媒体を提供する。
【0007】
開示された技術の少なくとも1つの利点は、話し手の音声の影響を強調して、話し手が彼らの感情状態をより効果的に伝えること、及び/または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができる。加えて、話し手の音声での影響を低減及び/または変更し、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手との交流を必要とせずに、1つ以上のタイプのセンサ・データを介して自動的に判定されることができる。
【0008】
1つ以上の実施形態の列挙された特徴が上記で説明する方式を詳細に理解することが可能であるために、1つ以上の実施形態のより詳細な説明は、上記で簡潔に要約され、特定の具体的な実施形態を参照することで得られることができ、それらのいくつかは、添付の図面で説明される。しかしながら、添付の図面が典型的な実施形態のみを説明することでいかなる方式でもその範囲を限定するとみなされるべきではなく、さまざまな実施形態のその範囲については他の実施形態もまた包含することに留意するべきである。
例えば、本願発明は以下の項目を提供する。
(項目1)
インストラクションがプロセッサにより実行されるときに、
人と関連した感情状態を判定し、
前記感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
前記ステップを実行することで、音声の影響を修正するように前記プロセッサを構成する、前記インストラクションを含む非一時的なコンピュータ可読記憶媒体。
(項目2)
前記人と関連した前記感情状態を判定することは、視覚センサ・データを分析して前記人の1つ以上の顔特性を判定することを備える、上記項目に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目3)
前記人と関連した前記感情状態を判定することは、前記音声サンプルを分析して前記感情状態を反映する少なくとも1つの音響特性を検出することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目4)
前記少なくとも1つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目5)
前記人と関連した前記感情状態を判定することは、前記人の脳活動を分析することを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目6)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目7)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目8)
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定し、
第一重み付けを前記第一感情状態に割り当て、
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定し、
第二重み付けを前記第二感情状態に割り当て、
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定し、
第三重み付けを前記第三感情状態に割り当て、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、
ことを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目9)
前記人と関連した前記感情状態を判定することは、グラフィカル・ユーザ・インタフェースを介して前記感情状態の選択を受信することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目10)
音声の影響を修正するためのシステムにおいて、
前記ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定し、
前記優勢な感情状態に基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
ように前記プロセッサを設定する、
前記システム。
(項目11)
前記プロセッサは、前記音声サンプルを分析して前記優勢な感情状態と関連した少なくとも1つの音響特性を検出することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目に記載の前記システム。
(項目12)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人の1つ以上の顔特性を判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目13)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも1つを判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目14)
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目15)
前記ユーザの脳活動を示す前記信号は、脳波検査(EEG)信号、機能的磁気共鳴画像法(fMRI)信号、及び機能的近赤外線分光法(fNIRS)信号のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記システム。
(項目16)
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定し、
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択する、
ことにより前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目17)
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目18)
音声の影響の修正方法において、
人及び前記人からの音声サンプルと関連したセンサ・データを取得し、
前記センサ・データに基づき前記人と関連した感情状態を判定し、
前記感情状態及び前記音声サンプルを示すデータをリモート・デバイスへ送信する、
ことを備える、前記方法。
(項目19)
前記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記方法。
(項目20)
前記リモート・デバイスは、前記人と関連した前記感情状態に基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、上記項目のうちのいずれか一項に記載の前記方法。
(摘要)
音声の影響を修正するための技術。この技術は、人と関連した感情状態を判定すること、及び感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの技術は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及び第二音声サンプルを送信することを備える。
【図面の簡単な説明】
【0009】
図1】さまざまな実施形態により、音声影響修正システムが会話中にユーザの音声の影響を修正することが可能である方法の概念図である。
図2】さまざまな実施形態により、図1の音声影響修正システムの1つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。
図3A図3A及び図3Bは、さまざまな実施形態により、図1の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。
図3B図3A及び図3Bは、さまざまな実施形態により、図1の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。
図4】さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。
【発明を実施するための形態】
【0010】
以下の説明において、複数の具体的な詳細は、本開示の実施形態のより完全な理解を提供するように説明される。しかしながら、本開示の実施形態が1つ以上のこれらの具体的な詳細なしで実施されることができることは、当業者に明らかであろう。
【0011】
上記で説明されるように、多くの人々は、彼らの感情状態を正確に伝えること、及び/または彼らがコミュニケートしている人の感情状態を正確に解釈することが困難である。たとえば、限定されないが、文化的な違い、不安、神経系疾患、コミュニケーション能力の欠乏などは、話し手が彼または彼女の感情を伝える言語及び/または非言語キューを効果的に利用することを妨げる可能性がある。同様に、このような問題は、聞き手が他の人々により伝えられた感情を正確に解釈することを妨げる可能性がある。
【0012】
その結果、話者間の感情のより効果的なコミュニケーションを容易にするために、音声影響修正システム(以降、「音声システム」)は、ユーザと関連した感情状態を判定して、つぎにこの感情状態に基づきユーザから取得された音声サンプルの1つ以上の音響特性を修正することができる。より具体的には、音声サンプルの音響特性、たとえば、音声サンプルのピッチ、声質、音色、発声摂動、音声イントネーション、ラウドネス、韻律、発話の規則性及び/または発話速度は、音声サンプルの影響を強調、低減及び/または変更するように修正されることができる。つぎに修正された音声サンプルは、ユーザがコミュニケートしている人に出力され、ユーザの意図された感情状態(複数を含む)がより効果的に伝えられ解釈されることを可能にする。さまざまな実施形態において、音声システムは、影響を修正するときに音声サンプルの音響特性にわずかな変更のみを加えるため、会話の当事者らは、音声システムの操作により注意を逸らされない。
【0013】
図1は、さまざまな実施形態により、音声システム100が会話中にユーザの音声の影響を修正することが可能である方法の概念図である。音声システム100は、限定されないが、マイクロフォン110及びスピーカ120を含むことができる。
【0014】
示されるように、音声サンプル112を1つ以上のマイクロフォン110を介してユーザから取得する。つぎに音声サンプル112は、意図された感情(複数を含む)をより正確に伝える修正された音声サンプル114を生成するために、音声サンプル112の1つ以上の音響特性を修正することで処理される。たとえば、限定されないが、ユーザが彼または彼女の音声で伝えられた興奮の度合いを高めたい場合に、音声システム100は、音声サンプル112を処理して音声サンプル112のピッチ及びラウドネスを増すこと、及び/またはたとえば、音声サンプル112内に含まれたピッチ、ラウドネス及び/または発話速度または特定の単語若しくは句を修正することで、音声サンプル112の韻律特性を修正することが可能である。対照的に、ユーザが彼または彼女の音声で伝えられる悲しみまたは同情の度合いを高めたい場合に、つぎに音声システム100は、音声サンプル112を処理して音声サンプル112のピッチ及び発話速度を低減すること、及び/または音声サンプル112の韻律特性を修正することで、これらの特定の感情を強調することが可能である。つぎに音声システム100は、スピーカ(複数を含む)120を介して修正された音声サンプル114を聞き手へ出力する。
【0015】
さまざまな実施形態において、音声システム100と関連した1つ以上のセンサは、ユーザの感情状態を自動的に検出する。つぎに音声システム100は、音声サンプル112の影響を強調、低減及び/または変更するために、感情状態に基づきユーザから取得された音声サンプル112を修正する。たとえば、限定されないが、ユーザが幸福感または感謝を伝えることが困難である場合に、つぎに音声システム100と関連した1つ以上のセンサは、ユーザが幸福である、または感謝していることを示す言語及び/または非言語キューを検出することが可能である。つぎに音声システム100は、ユーザから取得された音声サンプル112を修正し、たとえば、音声サンプル112のピッチ及び/または発話速度を上げることで、音声サンプル112に反映された幸福感または感謝の度合いを高める。このようにして、ユーザがコミュニケートしている人は、ユーザが幸せである、または感謝していることをユーザにより表現された特定の言語及び/または非言語キューが示すことを理解することができないが、音声システム100は、これらのキューを検出し、音声サンプル112の影響を修正して、ユーザの幸福感または感謝をより効果的に伝えることが可能である。
【0016】
別の非限定的な実施例において、音声システム100と関連した1つ以上のセンサは、ユーザが怒っている、または欲求不満であることを示す言語及び/または非言語キューを検出することが可能である。つぎに音声システム100は、ユーザから取得された音声サンプル112を修正し、たとえば、音声サンプル112の発話速度を低減する、ピッチを下げる、及び/またはトーンを中和することで、音声サンプル112に反映された怒り及び/または欲求不満の度合いを減らすことが可能である。その結果、このような実施形態において、音声システム100は、怒りまたは欲求不満を感じているユーザが音声の失礼なトーンを使用しないで他の人々とより丁寧にコミュニケートすることを可能にすることができる。あるいは、ユーザが怒っている、または欲求不満であることを音声システム100が検出するときに、音声システム100は、たとえば、音声サンプル112へ分調波周波数を加えることで、音声サンプル112での影響を強調し、音声サンプル112に反映された怒り及び/または欲求不満の度合いを高めることが可能である。このような実施形態において、音声システム100は、怒りまたは欲求不満を感じているが、その怒りまたは欲求不満を効果的にコミュニケート不可能なユーザが他の人々によりさらに正確に理解されることを可能にする。
【0017】
したがって、いくつかの実施形態において、音声システム100は、1つ以上のセンサを介して、ユーザが第一セットの感情状態(たとえば、幸福、興奮、愛情)にあると判定するときに、音声サンプル112の影響を強調することができ、ユーザが第二セットの感情状態(たとえば、怒り、欲求不満、悲しみ)にあるときに、音声サンプル112の影響を低減または変更することができる。1つ以上のセンサを介してユーザの感情状態を検出するための追加の技術は、図2と併せてさらに詳細に以下で記述される。
【0018】
さまざまな実施形態において、ユーザは、彼または彼女が音声サンプル100で強調、低減及び/または変更したい1つ以上の感情を選択することができる。さらにユーザは、音声システム100により各感情が強調、低減及び/または変更されるべきである度合いを選択することができる。一般に、ユーザは、彼または彼女自身の音声サンプル112での影響を強調、低減及び/または変更するために選択することができる、またはユーザは、ユーザがコミュニケートしている人から取得された音声サンプル112での影響を強調、低減及び/または変更するために選択することができる。たとえば、限定されないが、ユーザは、音声システム100と関連したグラフィカル・ユーザ・インタフェース(GUI)を介して第一感情(たとえば、「興奮」)を選択し、この感情を強調するべきであることを示すことが可能である。それに応答して、ユーザ及び/またはユーザがコミュニケートしている人が興奮していることを音声システム100が検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響は、たとえば、音声サンプル112のラウドネス、ピッチ及び/または発話速度を増すことで、興奮を強調するように修正される。
【0019】
さらに、ユーザは、音声システム100と関連したGUIを介して第二感情(たとえば、「怒り」)を選択し、この感情を減らすべきであることを示すことが可能である。つぎに、ユーザ及び/またはユーザがコミュニケートしている人が怒っていると音声システム100が検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響を修正し、たとえば、音声サンプル112の発話速度及びラウドネスを低減することで、音声サンプル112内の怒りを低減する。さらに別の非限定的な実施例において、ユーザは、音声システム100と関連したGUIを介して第三感情(たとえば、「神経質な」)を選択し、この感情を変更するべきであることを示すことが可能である。その後、音声システム100は、ユーザ及び/またはユーザがコミュニケートしている人が神経質になっていることを検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響は、自信のような、異なる感情と変更及び置換される。
【0020】
いくつかの実施形態において、GUIは、音声システム100と関連したスマートフォンまたはモバイル・コンピュータ・ディスプレイに実装されることができる。加えて、いくつかの実施形態において、本明細書で記述された機能性(たとえば、強調、低減、変更など)のいずれかは、GUIを介した明示的なインタラクションなしで、音声システム100により自動的に実装されることができる。
【0021】
図2は、さまざまな実施形態により、図1の音声システム100の1つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。示されるように、音声システム100は、限定されないが、1つ以上のマイクロフォン110、1つ以上のスピーカ120、コンピューティング・デバイス200、カメラ220及び電極222を含むことができる。コンピューティング・デバイス200は、プロセッサ202、入力/出力(I/O)デバイス204及びメモリ210を含む。メモリ210は、データベース214とインタラクトするように構成された音声修正アプリケーション212を含む。
【0022】
マイクロフォン(複数を含む)110は、無線または有線音響変換器を含むことができる。たとえば、限定されないが、マイクロフォン(複数を含む)110は、ダイナミック・ビーム・フォーミングを可能にする、単一の変換器、全方向性変換器、指向性変換器、及び/またはマイクロフォン・アレイを含むことができる。
【0023】
さまざまな実施形態において、音声修正アプリケーション212は、マイクロフォン(複数を含む)110を介して取得された1つ以上の音声サンプル112からユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション212は、感情状態を示す音声サンプル112内の1つ以上の音響特性を検出することが可能である。つぎに音声修正アプリケーション212は、実時間で他の感情状態に関する単一の音響特性(複数を含む)及び/または複数の音響特性を修正し、音声サンプル112内の影響を強調、低減または変更する。
【0024】
さまざまな実施形態において、カメラ(複数を含む)220は、ユーザの表情、ユーザが行ったジェスチャ、瞳孔拡大、ユーザの姿勢及び/またはユーザのボディ・ランゲージを検出するように構成される。たとえば、限定されないが、カメラ(複数を含む)220が取得した画像を分析して、ユーザの目、眉、口、鼻、額、頬、指先、関節、手、手首、腕、肩、背中、脚などの位置及び/または外見を判定することができる。つぎにこれらの体の部位のうちの1つ以上の位置及び/または外見を使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、ユーザの顔及び/または体の画像は、カメラ(複数を含む)220により取得され、音声修正アプリケーション212により処理され、ユーザの眉及び口の形状及び/またはユーザの姿勢を測定することができる。つぎにユーザの眉及び口の形状及び/またはユーザの姿勢を分析し、ユーザの感情状態を判定することができる。1つのカメラ220のみを図2で示すが、ユーザに関して任意の位置に設置された任意の数のカメラ220を使用し、ユーザの感情状態及び/またはユーザがコミュニケートしている人の感情状態を検出することができる。
【0025】
電極(複数を含む)222は、1つ以上の脳波検査(EEG)電極、皮膚コンダクタンス電極、心拍センサ電極及び/または筋電図(EMG)電極を含むことができる。一般に、電極222は、ユーザの感情状態と関連したセンサ・データを取得する。たとえば、限定されないが、EEG電極を介して取得されたセンサ・データは、音声修正アプリケーション212により分析され、ユーザの脳活動を検出することが可能である。つぎに音声修正アプリケーション212は、脳活動に基づきユーザの感情状態を判定し、その感情状態に基づき1つ以上の音声サンプル112を修正することが可能である。加えて、ユーザの感情状態を示す脳活動は、機能的磁気共鳴画像法(fMRI)及び機能的近赤外線分光法(fNIRS)を介して取得されたセンサ・データのような、他のタイプのセンサ・データを介して判定されることができる。
【0026】
いくつかの実施形態において、皮膚コンダクタンス電極及び/または心拍センサ電極を介して取得されたセンサ・データを使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション212は、1つ以上の皮膚コンダクタンス電極を介して取得されたセンサ・データを処理し、ユーザが発汗していることを判定することが可能である。このセンサ・データに基づき任意選択で他のセンサ・データ(たとえば、カメラ220を介して取得されたユーザの顔の画像)と併せて、つぎに音声修正アプリケーション212は、ユーザが神経質になっていると判定することが可能である。別の非限定的な実施例において、音声修正アプリケーション212は、心拍センサ電極を介して取得されたセンサ・データを処理し、ユーザが上昇した心拍数を有することを判定することが可能である。つぎに、このセンサ・データに基づき任意選択で他のセンサ・データ(たとえば、ユーザの音声サンプル112のスペクトル分析)と併せて、音声修正アプリケーション212は、ユーザが幸福である、及び/または興奮していることを判定することが可能である。
【0027】
音声システム100は、ユーザの頭皮、外耳道及び/またはユーザの頭部または体の他の部分と接触して配置されるように構成された任意の数の電極222を含むことができる。いくつかの実施形態において、本明細書で記述された1つ以上のタイプの電極222は、スマートフォン、ヘッドセット、ブレスレット、アームバンド、チェスト・ストラップ、イヤホンまたは1台のヘッドホン230内のような、ユーザが保持または着用するデバイス内に含まれる。さらに他の実施形態において、音声修正アプリケーション212は、血中酸素濃度センサを介してユーザ内での生理学的変化を検出することで、または加速度計、ジャイロスコープ若しくは磁力計を介してユーザの動きを検出することでユーザの感情状態を判定することが可能である。
【0028】
I/Oデバイス204は、入力デバイス、出力デバイスならびに入力を受信すること及び出力を提供することの両方が可能なデバイスを含むことができる。たとえば、限定されないが、I/Oデバイス204は、音声システム100に含まれたマイクロフォン(複数を含む)110、スピーカ(複数を含む)120、カメラ220及び/または電極222にデータを送信する、及び/またはこれらからデータを受信する有線及び/または無線通信デバイスを含むことができる。加えて、I/Oデバイス204は、ユーザの感情状態を示す他のタイプのセンサ・データを受信する1つ以上の有線または無線通信デバイスを含むことができる。
【0029】
さまざまな実施形態において、音声システム100は、本明細書で記述された1つ以上の実施形態を実施するために適切なパーソナル・オーディオ・デバイス、モバイル・コンピュータ、パーソナル・デジタル・アシスタント、携帯電話、デスクトップ・コンピュータまたは任意の他のデバイスを含むことができる。いくつかの実施形態において、音声システム100は、1つ以上のマイクロフォン110を任意選択で配置する、図2で示されるオーバイヤー型ヘッドホンのような、1台のヘッドホン230を含む。しかしながら、一般に、任意のタイプの有線または無線ヘッドホンは、サーカムオーラル型ヘッドホン、スープラオーラル型ヘッドホン及びインイヤー型ヘッドホンを含み、本明細書で記述された技術を実行するために使用されることができる。他の実施形態において、音声システム100は、補聴器のような支援医療機器またはBluetooth(登録商標)ヘッドセットのようなモバイル通信デバイスを含む、ユーザについての音を捕捉及び再生することが可能な任意の音響デバイスであってもよい。
【0030】
一般的に、コンピューティング・デバイス200は、音声システム100の全体的な操作を調整するように構成される。他の実施形態において、コンピューティング・デバイス200は、音声システム100の他の構成要素に結合されるが、これらから分離することができる。このような実施形態において、音声システム100は、ユーザの感情状態を示す音声サンプル112及び/またはセンサ・データを受信し、コンピューティング・デバイス200へデータ(たとえば、センサ・データ及び/または修正された音声サンプル114)を送信し、パーソナル・コンピュータ、ウェアラブル・デバイス、スマートフォン、ポータブル・メディア・プレーヤなどのような、別のデバイスに含まれることができる別のプロセッサを含むことができる。しかしながら、本明細書で開示された実施形態は、音声システム100の機能性を実装するように構成された任意の技術的に実現可能なシステムを意図する。
【0031】
プロセッサ202は、データを処理しプログラム・コードを実行するように構成された処理デバイスの任意の技術的に実現可能な形態であってもよい。プロセッサ202は、たとえば、限定されないが、中央処理装置(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)及びその他のものであることが可能である。メモリ210は、メモリ・モジュールまたはメモリ・モジュールの集合を含むことができる。メモリ210内の音声修正アプリケーション212は、プロセッサ202により実行され、コンピューティング・デバイス200の機能性全体を実装するため、全体として音声システム100の操作を調整する。たとえば、限定されないが、マイクロフォン(複数を含む)110、カメラ220及び電極222を介して取得された音声サンプル112及び/またはセンサ・データは、音声修正アプリケーション212により処理され、修正された音声サンプル114及び/またはユーザの感情状態を示すデータを生成することができる。いくつかの実施形態において、データベース214は、音声サンプル112、修正された音声サンプル114、オーディオ・パラメータ、センサ・データ、アルゴリズム、統計量及びユーザ選好を格納する。
【0032】
ヘッドホン230またはイヤホンと併せて音声システム100を実装する実施形態において、ヘッドホン230またはイヤホンは、ユーザが周囲環境内の環境音を聞くことが可能である音響透過モードで動作することができる。音響透過モードにおいて、音声修正アプリケーション212は、ユーザがコミュニケートしている(たとえば、選択的な音声強調を介して)1人以上と関連した音声サンプル112を検出し、音声サンプル112を修正して音声サンプル112の影響を強調、低減または変更することが可能である。その後、修正された音声サンプル114は、ヘッドホン230またはイヤホンに含まれたスピーカ120を介してユーザへ出力される。
【0033】
加えて、音声システム100は、たとえば、スピーカ120を介して反転された信号を出力して音声サンプル112内の特定の音の周波数をキャンセルすることで、アクティブ・ノイズ・キャンセレーション技術を介して音声サンプル112での影響を修正することができる。たとえば、限定されないが、ユーザの音声での特定周波数は、ユーザの音声の影響を強調、低減または変更するために1つ以上の反転された信号を介してキャンセルされることが可能である。さらに、音声システム100は、人とのコミュニケーション中に修正された音声サンプル114及び/またはノイズ・キャンセレーション信号を出力する外部スピーカ120(たとえば、ラウドスピーカ)と併せてこのような技術を実装することができる。このような実施形態において、音声修正アプリケーション212は、音声サンプル112を修正して音声サンプル112の影響を強調、低減または変更し、ユーザ自身の音声と同様の、またはこれより大きいボリュームで修正された音声サンプル114を出力することが可能であり、ユーザがコミュニケートしている人がユーザの感情状態をより正確に理解することを可能にする。
【0034】
一般に、音声修正アプリケーション212は、任意の技術的に実現可能なアルゴリズムまたは技術を使用して、音声サンプル112を修正し、音声サンプル112と関連した影響を強調、低減または変更することができる。いくつかの実施形態において、音声修正アプリケーション212は、フーリエ変換、調波スケーリング、ピッチ・スケーリング、ピッチ・シフト、タイム・ストレッチ、タイム・コンプレッション及びリサンプリングのようなオーディオ処理技術を介して音声サンプル112の音響特性を修正する。加えて、Auto−Tuneまたは同様のオーディオ処理技術のような商業技術は、さまざまな実施形態で実装されることができる。
【0035】
異なるユーザが感情を別々に表現することができるため(たとえば、文化的な、または個人的な理由により)、音声システム100は、トレーニング・モードを含むことができる。トレーニング・モードにおいて、音声システム100は、ユーザの感情状態を学習するために特定の感情状態と関連したセンサ・データを処理し、音声システム100の操作中に感情状態をより正確に判定することが可能である。いくつかの実施形態において、音声システム100は、音声システム100が感情状態を判定するために実装することが可能であるユーザ・ヒューリスティックスを生成するために機械学習アルゴリズムを実装する。その後、このようなヒューリスティックスは、データベース214に格納され、音声修正アプリケーション212によりアクセスされることができる。
【0036】
複数のタイプのセンサ・データを音声修正アプリケーション212により取得してユーザの感情状態を判定する実施形態において、重み付けは、各タイプのセンサ・データに割り当てられることができる。つぎにユーザの感情状態(複数を含む)は、各センサ・タイプについて判定された感情状態及び各センサ・タイプに割り当てられた重み付けに基づき判定されることができる。たとえば、限定されないが、ユーザは、GUIとインタラクトし、脳活動と関連したセンサ・データへ第一重み付け、表情と関連したセンサ活動へ第二重み付け、及び取得された音声サンプル112の音響特性と関連したセンサ・データへ第三重み付けを割り当てることが可能である。つぎに音声修正アプリケーション212は、各タイプのセンサ・データにより示された感情状態を判定し、重み付けを各感情状態に適用し、重み付けに基づき優勢な感情状態を判定する。いくつかの実施形態において、重み付けを特定のタイプのセンサ・データへ割り当てることは、あいまいな言語及び非言語キューを検出するときに、音声修正アプリケーション212が正しい感情状態(複数を含む)をより正確に判定することを可能にすることができる。加えて、重み付けを特定のタイプのセンサ・データに割り当てることは、音声修正アプリケーション212がこれらのタイプのセンサ・データを完全に無視せずにユーザの感情状態をあまり正確に反映しない可能性があるセンサ・データのタイプをあまり重視しないことを可能にすることができる。
【0037】
図3A及び3Bは、さまざまな実施形態により、図1の音声システム100を介して修正された音声サンプル114を生成するための異なる技術を図示する。図3Aで示されるように、いくつかの実施形態において、話し手と関連したデバイス310(たとえば、スマートフォン)で実行する音声修正アプリケーション212は、音声サンプル112を取得し、話し手の感情状態(複数を含む)を判定し、音声サンプル112及び感情状態(複数を含む)の両方を聞き手に送信する。つぎに、聞き手と関連したデバイス320は、音声サンプル112及び感情状態(複数を含む)を受信し、聞き手のデバイス320で実行する音声修正アプリケーション212は、聞き手に出力される修正された音声サンプル114を生成する。したがって、このような実施形態において、音声サンプル112を処理して、影響を強調、低減及び/または変更する方式は、たとえば、聞き手のデバイス320で実行する音声修正アプリケーション212により実装されたGUIを介して、聞き手により制御されることができる。
【0038】
図3Bで示されるように、いくつかの実施形態において、話し手と関連したデバイス310で実行する音声修正アプリケーション212は、音声サンプル112を取得し、話し手の感情状態(複数を含む)を判定し、ローカルに音声サンプル112を修正し、修正された音声サンプル114を生成する。つぎに修正された音声サンプル114は、聞き手と関連したデバイス320に送信され、聞き手に出力される。したがって、このような実施形態において、音声サンプル112を処理し、影響を強調、低減及び/または変更する方式は、たとえば、上記で説明されたGUI実装のいずれかを介して、話し手により制御されることができる。
【0039】
加えて、図3A及び3Bで図示された実施形態において、話し手及び聞き手は、音声サンプル112を修正して影響を強調、低減及び/または変更する度合いを交渉することができる。このような実施形態において、各聞き手及び話し手は、1つ以上の感情状態についての強調、低減及び/または変更の優先度を選択することが可能である。つぎに音声修正アプリケーション212は、たとえば、当事者らにより選択された強調、低減及び/または変更のより低い度合いを選択することで、話し手及び聞き手により行われた選択に基づき音声サンプル112を修正することができる。
【0040】
図4は、さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。方法ステップは、図1〜3Bのシステムと併せて記述されるが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムがさまざまな実施形態の範囲内に入ることを理解するであろう。
【0041】
示されるように、方法400は、音声修正アプリケーション212がマイクロフォン(複数を含む)110、I/Oデバイス204、カメラ(複数を含む)220、電極(複数を含む)222などを介して受信したセンサ・データを分析し、ユーザの感情状態を判定する、ステップ410で開始する。たとえば、限定されないが、上記で説明されるように、音声修正アプリケーション212は、センサ・データを分析し、ユーザの感情状態を示す言語及び/または非言語キューを検出することが可能である。そのとき、ステップ420で、音声修正アプリケーション212は、追加のタイプのセンサ・データを分析するべきであるかどうかを判定する。追加のタイプのセンサ・データを分析するべきである場合に、つぎに方法400は、ステップ410へ戻る。
【0042】
追加のタイプのセンサ・データを分析するべきではない場合に、つぎに方法400は、音声修正アプリケーション212が重み付けを各タイプのセンサ・データへ任意選択で適用する、ステップ430へ進行する。上記で説明されるように、いくつかの実施形態において、音声システム100のユーザは、重み付けを選択し、各タイプのセンサ・データへ適用することができる。加えて、いくつかの実施形態において、音声修正アプリケーション212は、重み付けを1つ以上のタイプのセンサ・データへ自動的に適用することができる。
【0043】
ステップ440で、音声修正アプリケーション212は、各タイプのセンサ・データについて判定された感情状態を分析し、センサ・データにより示された優勢な感情状態を判定する。重み付けを1つ以上のタイプのセンサ・データに適用する実施形態において、音声修正アプリケーション212は、対応する重み付けを各タイプのセンサ・データについて判定された感情状態へ適用すること、及び感情状態が最高値を有すると判定することで、優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション212は、40%の第一重み付けを第一タイプのセンサ・データ(たとえば、マイクロフォン110を介して取得された音声サンプル112)へ、30%の第二重み付けを第二タイプのセンサ・データ(たとえば、カメラ220を介して取得された顔画像)へ、及び30%の第三重み付けを第三タイプのセンサ・データ(たとえば、電極222を介して取得された脳活動)へ割り当てることが可能である。その後、音声修正アプリケーション212が第一タイプのセンサ・データ及び第二タイプのセンサ・データの両方について「幸せな」感情状態を判定するが、第三タイプのセンサ・データについて「怒っている」感情状態を判定するなら、つぎにステップ440で、音声修正アプリケーション212は、たとえば、70%の合計した重み付けに基づき「幸せな」感情状態が優勢な感情状態であると判定する。
【0044】
いくつかの実施形態において、ステップ440で、音声修正アプリケーション212は、ユーザが提示した複数の優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション212は、言語キュー(たとえば、音声サンプル112に基づき)を分析して第一感情状態を判定することが可能であり、非言語キュー(たとえば、表情に基づき)を分析して第二感情状態を判定することが可能である。その後、第一感情状態が第二感情状態と相反しないことを音声修正アプリケーション212が判定する場合に、第一感情状態及び第二感情状態の両方は、優勢な感情状態として指定されることが可能である。相反する感情状態の非限定的な実施例は、幸せな感情状態及び悲しい感情状態を含む。相反しない感情状態の非限定的な実施例は、幸せな感情状態及び神経質な感情状態、または怒っている感情状態及び悲しい感情状態を含む。
【0045】
つぎに、ステップ450で、音声修正アプリケーション212は、ユーザから取得された音声サンプル112がローカル(たとえば、話し手デバイス310を介して)に、またはリモート(たとえば、聞き手デバイス320を介して)に修正されるべきであるかどうかを判定する。音声サンプル112がローカルに修正されるべきであると音声修正アプリケーション212が判定する場合に、つぎに方法400は、音声修正アプリケーション212が優勢な感情状態(複数を含む)に基づき音声サンプル112の1つ以上の音響特性を修正する、ステップ460へ進む。加えて、ステップ460で、音声修正アプリケーション212は、音声サンプル112のアスペクト(たとえば、特定の周波数)をキャンセルするために、優勢な感情状態(複数を含む)に基づき1つ以上のノイズ・キャンセレーション信号を生成することができる。そのとき、ステップ465で、音声修正アプリケーション212は、たとえば、修正された音声サンプル114を聞き手デバイス320へ送信することで、及び/またはスピーカ120を介して修正された音声サンプル114を出力することで、修正された音声サンプル114を出力する。つぎに方法400は、ステップ410へ戻る。
【0046】
ステップ450に戻り、音声サンプル112がリモートに修正されるべきであると音声修正アプリケーション212が判定する場合に、つぎに方法400は、音声修正アプリケーション212が1つ以上の音声サンプル112及び優勢な感情状態(複数を含む)を示すデータを聞き手デバイス320のようなリモート・デバイスへ送信する、ステップ470へ進む。上記で説明されるように、音声サンプル(複数を含む)112及び優勢な感情状態(複数を含む)を示すデータをリモート・デバイスへ送信することは、音声サンプル112を処理して音声サンプル(複数を含む)112での影響を強調、低減及び/または変更する方法をリモート・ユーザが決定することを可能にする。つぎに方法400は、ステップ410へ戻る。
【0047】
つまり、音声修正アプリケーションは、1つ以上のタイプのセンサ・データに基づきユーザの感情状態を判定する。つぎに、音声修正アプリケーションは、感情状態に基づき音声サンプルの影響を強調、低減及び/または変更するために、ユーザから取得された音声サンプルを修正する。その後音声修正アプリケーションは、修正された音声サンプルを聞き手へ出力する。
【0048】
本明細書で記述された技術の少なくとも1つの利点は、話し手の音声での影響を強調し、話し手が彼らの感情状態をより効果的に伝えること、及び/または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができることである。加えて、話し手の音声での影響は、低減及び/または変更され、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手からのインタラクションを必要としない、1つ以上のタイプのセンサ・データを介して自動的に判定されることができる。
【0049】
さまざまな実施形態の説明は、例示のために提示されているが、網羅的であることを意図されず、または開示された実施形態に限定されない。多くの修正形態及び変形形態は、記述された実施形態の範囲及び趣旨から逸脱することなく当業者に明らかであろう。
【0050】
本実施形態の態様は、システム、方法またはコンピュータ・プログラム製品として具現化されることができる。したがって、本開示の態様は、すべて一般的に「回路」、「モジュール」または「システム」と本明細書で言われることができる、全ハードウェア実施形態、全ソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)またはソフトウェア及びハードウェア態様を組み合わせる実施形態の形態を取ることができる。さらに、本開示の態様は、その上に具現化されたコンピュータ可読プログラム・コードを含む1つ以上のコンピュータ可読媒体(複数を含む)内で具現化されたコンピュータ・プログラム製品の形態を取ることができる。
【0051】
1つ以上のコンピュータ可読媒体(複数を含む)の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、たとえば、限定されないが、電子、磁気、光学、電磁気、赤外線若しくは半導体システム、装置若しくはデバイスまたは任意の適切な前述の組み合わせであってもよい。さらにコンピュータ可読記憶媒体の特定の実施例(非網羅的なリスト)は、以下の、1本以上のワイヤを含む電気的接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能でプログラム可能な読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、光ストレージ・デバイス、磁気ストレージ・デバイスまたは任意の適切な前述の組み合わせを含む。この文書の文脈において、コンピュータ可読記憶媒体は、インストラクション実行システム、装置またはデバイスによる使用のための、またはこれと接続するプログラムを含む、または格納することが可能である任意の有形媒体であってもよい。
【0052】
本開示の態様は、本開示の実施形態により、方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/またはブロック図を参照して上記で説明される。各ブロックのフローチャート図及び/またはブロック図、及びフローチャート図及び/またはブロック図内のブロックの組み合わせがコンピュータ・プログラム・インストラクションにより実装されることが可能であることを理解するであろう。これらのコンピュータ・プログラム・インストラクションは、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサへ提供され、機械を生産することができるため、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行するインストラクションは、フローチャート及び/またはブロック図の単一のブロックまたは複数のブロックで指定された機能/動作の実施を可能にする。このようなプロセッサは、限定されないが、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサまたはフィールド・プログラマブル・プロセッサ若しくはゲート・アレイであってもよい。
【0053】
図面内のフローチャート及びブロック図は、本開示のさまざまな実施形態により、システム、方法及びコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性及び動作を説明する。この点について、フローチャートまたはブロック図の各ブロックは、指定された論理関数(複数を含む)を実装するために1つ以上の実行可能なインストラクションを含む、モジュール、セグメントまたはコードの部分を表すことができる。また、いくつかの代替の実装において、ブロックで言及される機能が図面で示された順序から外れることがあることに留意するべきである。たとえば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよい、またはこれらのブロックは、時として関連した機能性により、逆の順序で実行されてもよい。また、ブロック図及び/またはフローチャート図の各ブロック、及びブロック図及び/またはフローチャート図内のブロックの組み合わせは、指定された機能または動作を実行する専用ハードウェア・ベースのシステム、または専用ハードウェア及びコンピュータ・インストラクションの組み合わせにより実装されることが可能であることに留意するであろう。
【0054】
前述は本開示の実施形態を対象とするが、本開示の他の及びさらなる実施形態は、その基本的な範囲から逸脱することなく考案されることができ、その範囲は、以下の特許請求の範囲により決定される。
図1
図2
図3A
図3B
図4